MPT-7B: Das beste Open-Source-Sprachmodell ist kommerziell nutzbar

Midjourney prompted by THE DECODER

MosaicML veröffentlicht das bisher beste Open-Source-Sprachmodell, auch für kommerzielle Zwecke. Eine Variante kann sogar ganze Bücher verarbeiten.

MosaicMLs MPT-7B ist ein großes Sprachmodell mit fast 7 Milliarden Parametern, das das Team mit einem eigenen Datensatz von fast einer Billion Token trainiert hat.

Damit folgte MosaicML dem Trainingsregime des Vorbilds LLaMA von Meta. Das Training kostete knapp 200.000 US-Dollar und dauerte 9,5 Tage mit der MosaicML-Plattform.

MosaicML MPT-7B ist das bisher beste Open-Source-Modell

MPT-7B erreicht laut MosaicML die Leistungsfähigkeit von Metas 7-Milliarden-Parameter-Modell LLaMA, ist damit das erste Open-Source-Modell, das dieses Niveau erreicht und liegt vor OpenLLaMA.

MosaicMLs MPT-7B erreicht die Qualität von Metas LLaMA 7B. | Bild: MosaicML

Im Gegensatz zu Metas Modellen ist MPT-7B jedoch für die kommerzielle Nutzung freigegeben.

Neben dem Modell "MPT-7B Base" veröffentlicht MosaicML auch drei Varianten: MPT-7B-StoryWriter-65k+, MPT-7B-Instruct und MPT-7B-Chat.

MosaicML zeigt Sprachmodell mit 65.000 Token Kontext

MPT-7B-Instruct ist ein Modell für das Verfolgen von Kurzanweisungen, das Chat-Modell ist eine Chatbot-Variante im Stil von Alpaca oder Vicuna.

Mit MPT-7B-StoryWriter-65k+ veröffentlicht MosaicML auch ein Modell, das in der Lage sein soll, Stories mit sehr langen Kontextlängen zu lesen und zu schreiben. Dazu wurde MPT-7B mit einer Kontextlänge von 65.000 Token mit einer Teilmenge des books3-Datensatzes verfeinert. Die größte GPT-4-Variante von OpenAI soll 32.000 Token verarbeiten können.

Laut MosiacML kann das Modell mit einigen Optimierungen sogar über 65.000 Token extrapolieren und das Team konnte bis zu 84.000 Token auf einem einzelnen Knoten mit Nvidia A100-80GB GPUs demonstrieren. Aber selbst mit 65.000 Token war es möglich, ganze Romane zu generieren und einen Epilog zu schreiben.

Empfehlung

KI in der Praxis

Update

OpenAI stellt neues KI-Modell 'o1' vor, das für bessere Antworten länger nachdenkt

Das StoryWriter-Modell kann einen ganzen Roman verarbeiten. | Bild: MosaicML

Alle MPT-7B-Modelle sind auf GitHub verfügbar.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

MPT-7B: Das beste Open-Source-Sprachmodell ist kommerziell nutzbar

MosaicML MPT-7B ist das bisher beste Open-Source-Modell

MosaicML zeigt Sprachmodell mit 65.000 Token Kontext

OpenAI stellt neues KI-Modell 'o1' vor, das für bessere Antworten länger nachdenkt

OpenAI-Forscher: Wer am besten kommuniziert, ist der wertvollste Programmierer der Zukunft.

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

OpenAI verschiebt offenes KI-Modell wegen Sicherheitsbedenken auf unbestimmte Zeit

KI-Coding kann Entwickler langsamer machen – auch wenn sie sich schneller fühlen

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

MPT-7B: Das beste Open-Source-Sprachmodell ist kommerziell nutzbar

MosaicML MPT-7B ist das bisher beste Open-Source-Modell

MosaicML zeigt Sprachmodell mit 65.000 Token Kontext

Artikel teilen

Bankverbindung