Das akademische Forschungskollektiv Occiglot setzt mit der Veröffentlichung von zehn 7B-Modellen für fünf europäische Sprachen einen Schritt zur Erhaltung der europäischen Sprachenvielfalt und digitalen Souveränität.
US-Technologieunternehmen dominieren den Markt für Large Language Models (LLM). Dem will das akademische, gemeinnützige Forschungskollektiv Occiglot entgegenwirken. Die Initiative zielt darauf ab, die akademische und wirtschaftliche Wettbewerbsfähigkeit sowie die KI-Souveränität Europas zu stärken.
"Occiglot ist der festen Überzeugung, dass spezielle Sprachmodellierungslösungen der Schlüssel zum Erhalt der akademischen und wirtschaftlichen Wettbewerbsfähigkeit Europas und seiner KI-Souveränität sind", heißt es in der Ankündigung.
Occiglot hat zunächst zehn vorläufige 7B Model Checkpoints veröffentlicht, die sich auf die fünf wichtigsten europäischen Sprachen konzentrieren: Englisch, Deutsch, Französisch, Spanisch und Italienisch.
Die Modelle, die auf dem bestehenden Mistral-7B-Modell basieren, wurden mit 700 Milliarden zusätzlichen mehrsprachigen Tokens für das kontinuierliche Pre-Training und etwa 1 Milliarde Tokens für das Instruction Tuning optimiert. Details stehen im technischen Bericht.
Zusätzlich wurde ein mehrsprachiges Modell entwickelt, das alle fünf Sprachen abdeckt. Die Modelle sind auf der Hugging Face Plattform unter der Apache 2.0 Lizenz verfügbar.
Der Entwicklungsplan von Occiglot sieht vor, in den kommenden Monaten ein einheitliches Sprachmodellierungsverfahren zu entwickeln, das alle 24 offiziellen Sprachen der Europäischen Union sowie mehrere inoffizielle und regionale Sprachen unterstützt. Zu diesem Zweck wurde bereits ein Korpus von etwa 1 Billion Tokens nicht-englischer Pre-Trainingsdaten gesammelt.
Das hessische KI-Innovationslabor hessian.AI hat seine Unterstützung zugesagt: Es will "erhebliche Rechenkapazitäten" auf seinem KI-Supercomputer fortytwo zur Verfügung stellen.
Occiglot sucht Partner
Occiglot ruft zur Zusammenarbeit und zum Austausch innerhalb der (akademischen und nicht-akademischen) Gemeinschaft des maschinellen Lernens, der KI und der natürlichen Sprachverarbeitung auf.
Das Projekt betont den Bedarf an qualitativ hochwertigen Textdaten für das Pre-Training, insbesondere für ressourcenarme Sprachen, und sucht Partner für die Erstellung und Kuratierung von Instruction Tuning Datensätzen sowie für die Evaluierung von LLMs. Kontakt kann man unter anderem bei Discord aufnehmen.
Die Initiatoren von Occiglot, die unter anderem vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI), dem hessian.AI Innovation Lab und dem hessian.AISC Service Center unterstützt werden, sehen in der eigenen Initiative den Schlüssel zum Erhalt der sprachlichen und kulturellen Vielfalt Europas.