Inhalt
summary Zusammenfassung

Das akademische Forschungskollektiv Occiglot setzt mit der Veröffentlichung von zehn 7B-Modellen für fünf europäische Sprachen einen Schritt zur Erhaltung der europäischen Sprachenvielfalt und digitalen Souveränität.

Anzeige

US-Technologieunternehmen dominieren den Markt für Large Language Models (LLM). Dem will das akademische, gemeinnützige Forschungskollektiv Occiglot entgegenwirken. Die Initiative zielt darauf ab, die akademische und wirtschaftliche Wettbewerbsfähigkeit sowie die KI-Souveränität Europas zu stärken.

"Occiglot ist der festen Überzeugung, dass spezielle Sprachmodellierungslösungen der Schlüssel zum Erhalt der akademischen und wirtschaftlichen Wettbewerbsfähigkeit Europas und seiner KI-Souveränität sind", heißt es in der Ankündigung.

Occiglot hat zunächst zehn vorläufige 7B Model Checkpoints veröffentlicht, die sich auf die fünf wichtigsten europäischen Sprachen konzentrieren: Englisch, Deutsch, Französisch, Spanisch und Italienisch.

Anzeige
Anzeige

Die Modelle, die auf dem bestehenden Mistral-7B-Modell basieren, wurden mit 700 Milliarden zusätzlichen mehrsprachigen Tokens für das kontinuierliche Pre-Training und etwa 1 Milliarde Tokens für das Instruction Tuning optimiert. Details stehen im technischen Bericht.

Zusätzlich wurde ein mehrsprachiges Modell entwickelt, das alle fünf Sprachen abdeckt. Die Modelle sind auf der Hugging Face Plattform unter der Apache 2.0 Lizenz verfügbar.

Der Entwicklungsplan von Occiglot sieht vor, in den kommenden Monaten ein einheitliches Sprachmodellierungsverfahren zu entwickeln, das alle 24 offiziellen Sprachen der Europäischen Union sowie mehrere inoffizielle und regionale Sprachen unterstützt. Zu diesem Zweck wurde bereits ein Korpus von etwa 1 Billion Tokens nicht-englischer Pre-Trainingsdaten gesammelt.

Das hessische KI-Innovationslabor hessian.AI hat seine Unterstützung zugesagt: Es will "erhebliche Rechenkapazitäten" auf seinem KI-Supercomputer fortytwo zur Verfügung stellen.

Occiglot sucht Partner

Occiglot ruft zur Zusammenarbeit und zum Austausch innerhalb der (akademischen und nicht-akademischen) Gemeinschaft des maschinellen Lernens, der KI und der natürlichen Sprachverarbeitung auf.

Empfehlung

Das Projekt betont den Bedarf an qualitativ hochwertigen Textdaten für das Pre-Training, insbesondere für ressourcenarme Sprachen, und sucht Partner für die Erstellung und Kuratierung von Instruction Tuning Datensätzen sowie für die Evaluierung von LLMs. Kontakt kann man unter anderem bei Discord aufnehmen.

Die Initiatoren von Occiglot, die unter anderem vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI), dem hessian.AI Innovation Lab und dem hessian.AISC Service Center unterstützt werden, sehen in der eigenen Initiative den Schlüssel zum Erhalt der sprachlichen und kulturellen Vielfalt Europas.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das akademische Forschungskollektiv Occiglot veröffentlicht zehn 7B-Modelle für die fünf wichtigsten europäischen Sprachen (Englisch, Deutsch, Französisch, Spanisch und Italienisch). Ziel ist es, die sprachliche Vielfalt und die digitale Souveränität Europas zu erhalten.
  • Die Modelle basieren auf dem Mistral 7B Modell und wurden durch zweisprachiges Pre-Training und Instruction Tuning optimiert. Sie stehen auf der Hugging Face Plattform unter der Apache 2.0 Lizenz zur Verfügung.
  • Occiglot plant die Entwicklung eines einheitlichen Sprachmodellierungsverfahrens für alle 24 offiziellen EU-Sprachen und mehrere inoffizielle/regionale Sprachen und sucht Partner für die Erstellung von Instruction Tuning Datensätzen und die Evaluierung von LLMs.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!