Inhalt
summary Zusammenfassung

Im Mai veröffentlichte MosaicML das bisher beste Open-Source-Sprachmodell, jetzt legt das Start-up mit einer größeren und leistungsfähigeren Variante nach.

Nach MPT-7B hat MosaicML mit MPT-30B sein zweites großes Open-Source-Sprachmodell veröffentlicht. Das neue Modell ist ein 30-Milliarden-Parameter-Modell, das laut MosaicML die Leistungsfähigkeit von OpenAIs GPT-3 übertrifft, obwohl es nur etwa ein Sechstel so viele Parameter hat.

In einigen Bereichen, wie beispielsweise dem Coding, soll es Open-Source-Modelle wie Metas LLaMA oder Falcon übertreffen, in anderen Bereichen gleichauf oder ein wenig schlechter sein. Wie immer lassen sich diese Angaben aktuell nur schwer überprüfen. Wie der Vorgänger ist auch MPT-30B für kommerzielle Zwecke einsetzbar und kommt in zwei Varianten: MPT-30-Instruct, ein Modell, das für das Befolgen von kurzen Anweisungen trainiert wurde und dem Chatbot-Modell MPT-30B-Chat.

MPT-30B kommt mit längerem Kontextfenster

MPT-30B wurde zudem auf längeren Sequenzen (bis zu 8.000 Token) trainiert als GPT-3, LLaMA oder Falcon (jeweils 2.000 Token). Durch die Kontextlänge, die der Hälfte der neuesten "GPT-3.5-turbo"-Variante entspricht, eignet es sich gut für Anwendungsfälle, in denen viel Text oder Code gleichzeitig verarbeitet werden muss. Mit einer zusätzlichen Optimierungsmethode ließe sich die Sequenzlänge jedoch während des Finetuning oder der Inferenz problemlos verdoppeln, so MosaicML.

Anzeige
Anzeige

Als Beispiel nennt das Unternehmen Anwendungen in Branchen wie dem Gesundheitswesen oder Banken, die ihre Daten nicht an OpenAI übergeben wollen. Das erweiterte Kontextfenster könnte dazu genutzt werden, Laborergebnisse zu interpretieren und durch die Analyse verschiedener Eingaben Einblicke in die Krankengeschichte eines Patienten zu geben.

MosiacML zielt auf OpenAIs proprietäre Plattform

MPT-30B soll zudem recheneffizienter als Falcon oder LLaMA sein und auf einer einzigen Grafikkarte mit 80 Gigabyte Speicher laufen. Naveen Rao, Mitbegründer und CEO von MosaicML, erklärte, dass das Falcon-Modell mit seinen 40 Milliarden Parametern nicht auf einer einzigen GPU laufen könne.

Rao sieht proprietäre Plattformen wie OpenAI jedoch als die eigentliche Konkurrenz, Open-Source-Projekte seien letztlich alle im selben Team. Er betonte, dass Open-Source-Sprachmodelle "die Lücke zu diesen Closed-Source-Modellen schließen". OpenAIs GPT-4 sei zwar noch immer klar überlegen, aber der Zeitpunkt sei gekommen, an dem sie "die Schwelle überschritten haben, an der diese Modelle wirklich extrem nützlich sind".

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  1. MosaicML hat mit MPT-30B ein Open-Source-Sprachmodell veröffentlicht, das die Leistung von OpenAIs GPT-3 und Metas LLaMA übertrifft, obwohl es weniger Parameter hat und für kommerzielle Zwecke freigegeben ist.
  2. MPT-30B wurde auf längeren Sequenzen trainiert und eignet sich gut für Anwendungen mit viel Text oder Code.
  3. Laut dem Start-up ist das Open-Source-Modell recheneffizient und kann auf einer einzelnen Grafikkarte mit 80 Gigabyte Speicher laufen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!