Das in Helsinki ansässige KI-Start-up Silo AI hat Poro vorgestellt, ein quelloffenes Large Language Model (LLM), das die mehrsprachigen KI-Fähigkeiten für europäische Sprachen und Codes verbessern soll.
Poro wurde von SiloGen, der Abteilung für generative KI von Silo AI, und der Forschungsgruppe TurkuNLP an der Universität Turku entwickelt und ist das erste einer geplanten Reihe von Modellen, die alle Amtssprachen der Europäischen Union abdecken sollen.
Das Ziel ist, "die digitale Souveränität Europas zu gewährleisten und den Zugang zu LLMs zu demokratisieren." Silo AI beschreibt sich selbst als "das größte private KI-Labor in den nordischen Ländern, das KI als Dienstleistung anbietet."
Das Modell Poro 34B mit 34,2 Milliarden Parametern verwendet eine BLOOM-Transformer-Architektur mit ALiBi-Einbettungen und wird auf einem mehrsprachigen Datensatz mit einer Billion Token trainiert, der sich auf Englisch, Finnisch und Programmiersprachen wie Python und Java konzentriert. Poro wurde bislang zu 30 Prozent trainiert. Das Training wurde auf LUMI, dem schnellsten Supercomputer Europas, in Finnland durchgeführt.
Das Modell verwendet einen sprachenübergreifenden Trainingsansatz, um der Herausforderung zu begegnen, leistungsfähige natürliche Sprachmodelle für europäische Sprachen mit begrenzten Ressourcen zu trainieren. Der Trainingsfortschritt von Poro wird durch das Poro Research Checkpoints Programm dokumentiert und bietet somit Transparenz über das Training des Modells.
In den Benchmarks erzielt Poro 34B die besten Ergebnisse in der ressourcenarmen Sprache Finnisch, ohne dass die Finnischkompetenz auf Kosten der Englischkompetenz geht. Nach dem deutschen Sprachmodell LeoLM, das kürzlich von LAION und Hessian.ai trainiert wurde, ist dies das zweite europäische sprachspezifische LLM, das sowohl im Englischen als auch in seiner Muttersprache gute Leistungen erbringt.
Poro ist unter der Apache 2.0 Lizenz frei verfügbar und eignet sich daher sowohl für die kommerzielle als auch für die wissenschaftliche Nutzung. Die Modellkarte kann hier eingesehen werden.
LLMs wie GPT-4 zeigen gute Leistungen in vielen Sprachen, sind aber in der Regel am stärksten im Englischen, das den Datensatz dominiert.
Mit dem französischen Mistral 7B, das eine wettbewerbsfähige Gesamtleistung aufweist, und dem deutschen Aleph Alpha, das kürzlich eine Investition von 500 Millionen Euro erhalten hat, scheint Europa langsam Fahrt aufzunehmen. Wenn man von der EU-Gesetzgebung für KI selbst absieht, denn die wird wohl noch etwas dauern.