Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

MosaicML veröffentlicht das bisher beste Open-Source-Sprachmodell, auch für kommerzielle Zwecke. Eine Variante kann sogar ganze Bücher verarbeiten.

MosaicMLs MPT-7B ist ein großes Sprachmodell mit fast 7 Milliarden Parametern, das das Team mit einem eigenen Datensatz von fast einer Billion Token trainiert hat.

Damit folgte MosaicML dem Trainingsregime des Vorbilds LLaMA von Meta. Das Training kostete knapp 200.000 US-Dollar und dauerte 9,5 Tage mit der MosaicML-Plattform.

MosaicML MPT-7B ist das bisher beste Open-Source-Modell

MPT-7B erreicht laut MosaicML die Leistungsfähigkeit von Metas 7-Milliarden-Parameter-Modell LLaMA, ist damit das erste Open-Source-Modell, das dieses Niveau erreicht und liegt vor OpenLLaMA.

Anzeige
Anzeige
MosaicMLs MPT-7B erreicht die Qualität von Metas LLaMA 7B. | Bild: MosaicML

Im Gegensatz zu Metas Modellen ist MPT-7B jedoch für die kommerzielle Nutzung freigegeben.

Neben dem Modell "MPT-7B Base" veröffentlicht MosaicML auch drei Varianten: MPT-7B-StoryWriter-65k+, MPT-7B-Instruct und MPT-7B-Chat.

MosaicML zeigt Sprachmodell mit 65.000 Token Kontext

MPT-7B-Instruct ist ein Modell für das Verfolgen von Kurzanweisungen, das Chat-Modell ist eine Chatbot-Variante im Stil von Alpaca oder Vicuna.

Mit MPT-7B-StoryWriter-65k+ veröffentlicht MosaicML auch ein Modell, das in der Lage sein soll, Stories mit sehr langen Kontextlängen zu lesen und zu schreiben. Dazu wurde MPT-7B mit einer Kontextlänge von 65.000 Token mit einer Teilmenge des books3-Datensatzes verfeinert. Die größte GPT-4-Variante von OpenAI soll 32.000 Token verarbeiten können.

Laut MosiacML kann das Modell mit einigen Optimierungen sogar über 65.000 Token extrapolieren und das Team konnte bis zu 84.000 Token auf einem einzelnen Knoten mit Nvidia A100-80GB GPUs demonstrieren. Aber selbst mit 65.000 Token war es möglich, ganze Romane zu generieren und einen Epilog zu schreiben.

Empfehlung
Das StoryWriter-Modell kann einen ganzen Roman verarbeiten. | Bild: MosaicML

Alle MPT-7B-Modelle sind auf GitHub verfügbar.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • MosaicML veröffentlicht MPT-7B, ein Sprachmodell, das die Leistung von Metas LLaMA 7B erreicht und Open-Source ist.
  • MPT-7B und seine Varianten sind für kommerzielle Zwecke freigegeben.
  • Neben einem Chat- und Instruct-Modell gibt es auch ein StoryWriter-Modell mit einem Kontextfenster von 65.000 Token.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!