Mit BigScience Bloom startet ein neuer GPT-3-Konkurrent, der viel mehr ist als nur ein weiteres großes Sprachmodell.
Große Sprachmodelle gehören zu den erfolgreichsten KI-Technologien der letzten Jahre: Große US-Unternehmen wie OpenAI, Google, Nvidia oder Meta nutzen sie für ihre Produkte oder verkaufen Zugänge zu den Text-Fähigkeiten der Künstlichen Intelligenzen.
Auch in China gibt es zahlreiche große Sprachmodelle unterschiedlicher Anbieter. Im März zeigten etwa Forschende der Alibaba Group ein 1,93 Billionen Parameter großes Modell. Das für das Training genutzte BaGuaLu-Framework ermöglicht theoretisch KI-Modelle mit bis zu 174 Billionen Parametern.
Auch in Israel und Europa bieten Unternehmen Sprachmodelle an. Das israelische KI-Startup AI21 Labs sicherte sich kürzlich 64 Millionen US-Dollar für die Entwicklung weiterer KI-Modelle wie Jurassic-1 Jumbo. Das deutsche Unternehmen Aleph Alpha veröffentlichte Luminous und kündigte kürzlich eine Kooperation mit dem britischen Chip-Hersteller Graphcore für weitere Projekte an.
Diese riesigen Sprachmodelle dienen Kund:innen häufig als Grundlage für eigene KI-Anwendungen, für die sie das große Modell mit geringem Zusatztraining feinjustieren. Die zugrundeliegenden Technologien kommen außerdem in multimodalen Systemen wie DALL-E 2, Imagen oder Parti zum Einsatz.
EleutherAI, Hugging Face und Meta bringen Open-Source Modelle
Doch Modelle wie OpenAIs GPT-3 oder Googles LaMDA sind gut gehütete Geheimnisse, ihr Code ist nicht frei zugänglich. Unabhängige Forschende arbeiten daher seit einigen Jahren an Open-Source-Alternativen, die den Nutzungs- und Forschungszugang zu großen Sprachmodellen öffnen sollen.
Zu den Vorreitern gehören das Forschungskollektiv EleutherAI, das Anfang des Jahres das 20 Milliarden Parameter große GPT-NeoX-20B veröffentlichte, und das KI-Startup Hugging Face, das die Entwicklung, das Training und den Einsatz von Open-Source KI-Modellen ermöglicht.
Wohl auch angetrieben von diesen Erfolgen, veröffentlichte Meta im Mai das 175 Milliarden Parameter Modell OPT-175B - allerdings nur für Forschende und nur auf Anfrage. Es ist das bis dato größte offene Sprachmodell, wenn auch mit eingeschränktem Zugang.
BigScience Bloom ist Open-Science und Open-Source
Nun gibt es mit BigScience Bloom eine echte Open-Source-Alternative zu GPT-3, die für Forschungs- und Unternehmenszwecke frei zugänglich ist. Bloom wurde über 117 Tage im Supercomputing-Zentrum des französischen Nationalen Zentrums für wissenschaftliche Forschung trainiert und ist 176 Milliarden Parameter groß.
An der Entwicklung waren über 1000 freiwillige Forschende beteiligt, organisiert im Projekt BigScience, koordiniert von Hugging Face und mitfinanziert von der französischen Regierung.
Bloom kann kostenlos auf Hugging Face heruntergeladen werden und soll bei Genauigkeit - und auch Toxizität - auf dem Niveau von GPT-3 sein. Ein zentraler Unterschied zu GPT-3 ist der stärkere Fokus auf Sprachen abseits der sonst dominanten englischen Sprache.
Bloom kann 46 verschiedene Sprachen verarbeiten, darunter Französisch, Vietnamesisch, Mandarin, Indonesisch, Katalanisch, 13 indische Sprachen (wie Hindi) und 20 afrikanische Sprachen. BigScience sammelte dafür zahlreiche neue Datensätze und veröffentlicht alle Details zu Datensätzen, der Entwicklung und dem Training von Bloom.
Der Release erfolgt unter der von BigScience entwickelten Responsible AI License, die den Einsatz von Bloom in Gebieten wie der Strafverfolgung, dem Gesundheitswesen oder der Täuschung verbietet. Anders als etwa OpenAI hat BigScience allerdings keine Möglichkeit, den Missbrauch effektiv zu verhindern, da das Modell direkt verfügbar ist statt über eine Schnittstelle.
Bloom soll nun als Grundlage für zahlreiche Anwendungen und vor allem Forschungsprojekte dienen, die alternative KI-Anwendungen abseits der großen Tech-Unternehmen schaffen.