OpenAIs GPT-3 bekommt Konkurrenz: Das israelische Start-up AI21 Labs stellt das riesige Sprachmodell Jurassic-1 Jumbo vor.
OpenAI bietet den Zugang zu seiner leistungsstarken Text-KI GPT-3 über eine API an. Kunden zahlen für die Nutzung der verschiedenen GPT-3-Modelle abhängig von der Länge der Anfragen, die an die Text-KI versendet werden. Bisher gibt es auf dem Markt keinen vergleichbaren KI-Service und mehr als 300 Apps setzen mittlerweile auf GPT-3. Angesichts der Leistungsfähigkeit und des Potenzials der API-Lösung drängt etwa der KI-Bundesverband auf europäische Lösungen, Eleuther AI arbeitet an einer Open-Source-Variante und China entwickelt bereits eigene Modelle wie Wu Dao 2.0.
Nun bekommt OpenAI Konkurrenz vom israelischen KI-Start-up AI21 Labs. Das etwa 40 Mitarbeiter starke Unternehmen wurde 2017 von Crowdx-Gründer Ori Goshen, Stanford University-Professor Yoav Shoham und Mobileye-CEO Amnon Shashua mitgegründet und sammelte bisher 34,5 Millionen US-Dollar ein. Kernprodukt von AI21 Labs ist das AI21 Studio, über das Kunden direkten Zugriff auf die KI-Modelle des Unternehmens haben.
Jurassic-1 Jumbo mit 178 Milliarden Parametern
Dazu zählen die beiden Sprachmodelle Jurassic-1 mit sieben Milliarden Parametern und Jurassic-1 Jumbo mit 178 Milliarden Parametern – drei Milliarden mehr als GPT-3. Laut AI21 Labs hat Jurassic-1 Jumbo ein Vokabular von knapp 250.000 Elementen wie Wörtern, Phrasen oder Eigennamen. Zum Vergleich: GPT-3 hat lediglich 50.000. Zu den Elementen zählen laut AI21 Labs auch Eigennamen mit mehreren Wörtern wie „The Empire State Building“, „New York Yankees“ oder Phrasen wie „run of the mill“ (zu Deutsch: „ganz normal“ im Sinne eines alltäglichen Vorgangs).
Das soll die semantischen Repräsentationen im Netz verbessern und dazu führen, dass Jurassic-1 Jumbo einen Satz in weniger Wörter oder Wortabschnitte, sogenannte Token, teilen muss. In der Praxis teile Jurassic-1 Jumbo einen Text in 28 Prozent weniger Token auf als GPT-3 und verarbeite den Text daher 1,4-mal schneller. Alternativ lassen sich laut AI21 Labs 39 Prozent mehr Text bei der maximal verarbeitbaren Länge von 2.048 Token unterbringen.
Trainiert wurde das über 350 Gigabyte große Sprachmodell in der Cloud auf hunderten verteilten GPUs mit 300 Milliarden Token von englischsprachigen Webseiten wie Wikipedia, News-Seiten, StackExchange oder OpenSubtitles. Laut AI21 Labs zeigt Jurassic-1 Jumbo in verschiedenen Tests mit GPT-3 vergleichbare Leistung.
Offene Beta-Phase und die Frage nach den Vorurteilen
Jurassic-1 und Jurassic-1 Jumbo sind für Interessenten in einer offenen Beta-Phase über AI21 Studio verfügbar. Als mögliche Anwendungen nennt AI21 Labs etwa Chatbots und bietet neben dem klassischen Prompt-Design-Ansatz Nachtraining für spezialisierte Modelle an. Einen ähnlichen Service hat OpenAI für GPT-3 im Angebot.
Die Textmenge, die in der offenen Beta generiert werden kann, ist begrenzt und jede Anfrage für nachtrainierte Modelle werde manuell geprüft, um Missbrauch zu bekämpfen, sagt das Start-up. Im StereoSet-Test für Vorurteile in Sprachmodellen schlug sich Jurassic-1 laut AI21 Labs etwas besser als die Künstliche Intelligenz von GPT-3. Angesichts der teilweise starken Vorurteile, die in OpenAIs Text-KI zu finden sind, ist das für diejenigen, die vor einer allzu schnellen Verbreitung solcher Sprachmodelle warnen, wenig beruhigend.
Wie und ob AI21 Labs in der Lage ist, mit möglichen Missbrauchsfällen umzugehen, ist offen. Sollten ausgereifte Methoden entstehen, die Vorurteile in Sprachmodellen verringern, will AI21 Labs diese in seine Modelle integrieren. OpenAI forscht hier bereits aktiv an Methoden wie einem gezielten Anti-Vorurteil-Nachtraining mit dem PALMS-Datensatz.
Titelbild: OpenAI | Via: AI21 Labs, Jumbo 1 Technical Paper