Im Mai veröffentlichte MosaicML das bisher beste Open-Source-Sprachmodell, jetzt legt das Start-up mit einer größeren und leistungsfähigeren Variante nach.
Nach MPT-7B hat MosaicML mit MPT-30B sein zweites großes Open-Source-Sprachmodell veröffentlicht. Das neue Modell ist ein 30-Milliarden-Parameter-Modell, das laut MosaicML die Leistungsfähigkeit von OpenAIs GPT-3 übertrifft, obwohl es nur etwa ein Sechstel so viele Parameter hat.
In einigen Bereichen, wie beispielsweise dem Coding, soll es Open-Source-Modelle wie Metas LLaMA oder Falcon übertreffen, in anderen Bereichen gleichauf oder ein wenig schlechter sein. Wie immer lassen sich diese Angaben aktuell nur schwer überprüfen. Wie der Vorgänger ist auch MPT-30B für kommerzielle Zwecke einsetzbar und kommt in zwei Varianten: MPT-30-Instruct, ein Modell, das für das Befolgen von kurzen Anweisungen trainiert wurde und dem Chatbot-Modell MPT-30B-Chat.
MPT-30B kommt mit längerem Kontextfenster
MPT-30B wurde zudem auf längeren Sequenzen (bis zu 8.000 Token) trainiert als GPT-3, LLaMA oder Falcon (jeweils 2.000 Token). Durch die Kontextlänge, die der Hälfte der neuesten "GPT-3.5-turbo"-Variante entspricht, eignet es sich gut für Anwendungsfälle, in denen viel Text oder Code gleichzeitig verarbeitet werden muss. Mit einer zusätzlichen Optimierungsmethode ließe sich die Sequenzlänge jedoch während des Finetuning oder der Inferenz problemlos verdoppeln, so MosaicML.
Als Beispiel nennt das Unternehmen Anwendungen in Branchen wie dem Gesundheitswesen oder Banken, die ihre Daten nicht an OpenAI übergeben wollen. Das erweiterte Kontextfenster könnte dazu genutzt werden, Laborergebnisse zu interpretieren und durch die Analyse verschiedener Eingaben Einblicke in die Krankengeschichte eines Patienten zu geben.
MosiacML zielt auf OpenAIs proprietäre Plattform
MPT-30B soll zudem recheneffizienter als Falcon oder LLaMA sein und auf einer einzigen Grafikkarte mit 80 Gigabyte Speicher laufen. Naveen Rao, Mitbegründer und CEO von MosaicML, erklärte, dass das Falcon-Modell mit seinen 40 Milliarden Parametern nicht auf einer einzigen GPU laufen könne.
Rao sieht proprietäre Plattformen wie OpenAI jedoch als die eigentliche Konkurrenz, Open-Source-Projekte seien letztlich alle im selben Team. Er betonte, dass Open-Source-Sprachmodelle "die Lücke zu diesen Closed-Source-Modellen schließen". OpenAIs GPT-4 sei zwar noch immer klar überlegen, aber der Zeitpunkt sei gekommen, an dem sie "die Schwelle überschritten haben, an der diese Modelle wirklich extrem nützlich sind".