Europäische Forschungsgemeinschaft will Open Source LLM-Vielfalt fördern

Ideogram prompted by THE DECODER

Das akademische Forschungskollektiv Occiglot setzt mit der Veröffentlichung von zehn 7B-Modellen für fünf europäische Sprachen einen Schritt zur Erhaltung der europäischen Sprachenvielfalt und digitalen Souveränität.

US-Technologieunternehmen dominieren den Markt für Large Language Models (LLM). Dem will das akademische, gemeinnützige Forschungskollektiv Occiglot entgegenwirken. Die Initiative zielt darauf ab, die akademische und wirtschaftliche Wettbewerbsfähigkeit sowie die KI-Souveränität Europas zu stärken.

"Occiglot ist der festen Überzeugung, dass spezielle Sprachmodellierungslösungen der Schlüssel zum Erhalt der akademischen und wirtschaftlichen Wettbewerbsfähigkeit Europas und seiner KI-Souveränität sind", heißt es in der Ankündigung.

Occiglot hat zunächst zehn vorläufige 7B Model Checkpoints veröffentlicht, die sich auf die fünf wichtigsten europäischen Sprachen konzentrieren: Englisch, Deutsch, Französisch, Spanisch und Italienisch.

Die Modelle, die auf dem bestehenden Mistral-7B-Modell basieren, wurden mit 700 Milliarden zusätzlichen mehrsprachigen Tokens für das kontinuierliche Pre-Training und etwa 1 Milliarde Tokens für das Instruction Tuning optimiert. Details stehen im technischen Bericht.

Zusätzlich wurde ein mehrsprachiges Modell entwickelt, das alle fünf Sprachen abdeckt. Die Modelle sind auf der Hugging Face Plattform unter der Apache 2.0 Lizenz verfügbar.

Der Entwicklungsplan von Occiglot sieht vor, in den kommenden Monaten ein einheitliches Sprachmodellierungsverfahren zu entwickeln, das alle 24 offiziellen Sprachen der Europäischen Union sowie mehrere inoffizielle und regionale Sprachen unterstützt. Zu diesem Zweck wurde bereits ein Korpus von etwa 1 Billion Tokens nicht-englischer Pre-Trainingsdaten gesammelt.

Das hessische KI-Innovationslabor hessian.AI hat seine Unterstützung zugesagt: Es will "erhebliche Rechenkapazitäten" auf seinem KI-Supercomputer fortytwo zur Verfügung stellen.

Occiglot sucht Partner

Occiglot ruft zur Zusammenarbeit und zum Austausch innerhalb der (akademischen und nicht-akademischen) Gemeinschaft des maschinellen Lernens, der KI und der natürlichen Sprachverarbeitung auf.

Empfehlung

KI in der Praxis

ChatGPTs neue Browsing-Funktion ist schlechter als Suchmaschinen

Das Projekt betont den Bedarf an qualitativ hochwertigen Textdaten für das Pre-Training, insbesondere für ressourcenarme Sprachen, und sucht Partner für die Erstellung und Kuratierung von Instruction Tuning Datensätzen sowie für die Evaluierung von LLMs. Kontakt kann man unter anderem bei Discord aufnehmen.

Die Initiatoren von Occiglot, die unter anderem vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI), dem hessian.AI Innovation Lab und dem hessian.AISC Service Center unterstützt werden, sehen in der eigenen Initiative den Schlüssel zum Erhalt der sprachlichen und kulturellen Vielfalt Europas.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Europäische Forschungsgemeinschaft will Open Source LLM-Vielfalt fördern

Occiglot sucht Partner

ChatGPTs neue Browsing-Funktion ist schlechter als Suchmaschinen

Microsoft und OpenAI starten Fine-Tuning für Mini-LLMs mit Sonderangebot

X sammelt ungefragt Nutzerdaten fürs KI-Training von "Grok" - so deaktiviert man es

Deutsches KI-Start-up Aleph Alpha differenziert 500-Millionen-Investitionspaket aus

Rule-Based Rewards: OpenAI gibt Einblick in den Sicherheitsstack von GPT-4

Ex-OpenAI-Forscher erklärt das Rückwärtsrennen bei KI-Modellen

OpenAI-Projekt "Strawberry" könnte mathematische Probleme auf hohem Niveau lösen

Europäische Forschungsgemeinschaft will Open Source LLM-Vielfalt fördern

Occiglot sucht Partner

Artikel teilen

Bankverbindung