Inhalt
summary Zusammenfassung
Update
  • OpenLLaMA 13B ist jetzt verfügbar

Update vom 19. Juni 2023:

Anzeige

Das OpenLLaMA-Team hat das OpenLLaMA-Modell mit 13 Milliarden Parametern veröffentlicht. Es ist auf Github verfügbar. Das Team weist darauf hin, dass der für OpenLLaMA verwendete Tokenizer nicht für Code geeignet ist. Ein für Code geeignetes Modell soll folgen.

Originalartikel vom 5. Mai 2023:

OpenLLaMA ist eine Open-Source Reproduktion des LLaMA-Sprachmodells von Meta und kann auch kommerziell genutzt werden.

Anzeige
Anzeige

Seit der Vorstellung von Metas großen Sprachmodellen der LLaMA-Familie und dem anschließenden Leak ist die Entwicklung von Open-Source-Chatbots explodiert. Modelle wie Alpaca, Vicuna oder OpenAssistant verwenden die Modelle von Meta als Grundlage für ihr Feintuning mit Instruktionsdatensätzen.

Allerdings sind die LLaMA-Modelle nur für Forschungszwecke lizenziert, was eine kommerzielle Nutzung der Open-Source-Modelle verhindert.

OpenLLaMA reproduziert Metas Sprachmodelle

Alternativen, die auf anderen frei verfügbaren Modellen aufbauen erreichen nicht die Qualität der Modelle von Meta, da LLaMA sich an den Erkenntnissen von Deepminds Chinchilla orientiert und mit besonders vielen Daten trainiert wurde.

Forschende von Berkeley AI Research wollen Metas LLaMA-Modelle daher im OpenLLaMA-Projekt nachbilden. Das Team verwendet für das Projekt den RedPajama-Datensatz von Together. Die Open-Source-Plattform kündigte im April ebenfalls an die LLaMA-Modelle reproduzieren zu wollen und veröffentlichte als ersten Schritt den 1,2 Billionen Parameter großen Datensatz.

Das Team von Berkeley veröffentlicht nun eine frühe Version des 7 Milliarden Parameter großen OpenLLaMA-Modells, das mit bisher 300 Milliarden von 1,2 Billionen Token trainiert wurde. Die Leistung soll sich bereits dem Niveau von LLaMA annähern und das Team ist zuversichtlich, dass das vollständig trainierte OpenLLaMA mit Metas Original konkurrenzfähig sein wird.

Empfehlung

OpenLLaMA kommt auch in 3 Milliarden Parameter Version

Neben dem Modell mit 7 Milliarden Parametern trainiert das OpenLLaMA-Team auch eine Variante mit 3 Milliarden Parametern, um den Einsatz von leistungsfähigen Sprachmodellen in Anwendungsfällen zu ermöglichen, in denen nur begrenzte Ressourcen zur Verfügung stehen.

Größere Modelle plant das Team aktuell nicht. Auch Togethers LLaMA-Reproduktion RedPajma beschränkt sich zunächst auf die 7-Milliarden-Parameter Variante. Das KI-Modell befindet sich aktuell ebenfalls im Training und dürfte die 500 Milliarden Token-Grenze mittlerweile überschritten haben.

Die Alpaca-Formel oder OpenAssistant können auf die dann bald verfügbaren, fertig trainierten OpenLLaMA- oder RedPajama-Modelle umsteigen, sind damit auch für die kommerzielle Nutzung einsetzbar und könnten Unternehmen so das erste Mal eine echte Open-Source-Alternative zu Services wie OpenAIs ChatGPT bieten.

Das erste OpenLLaMA-Modell gibt es auf HuggingFace, weitere Informationen und Code auf Github.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenLLaMA ist eine Open-Source-Reproduktion von Metas LLaMA-Sprachmodellen, die kommerzielle Nutzung ermöglicht.
  • Berkeley AI Research veröffentlicht eine frühe Version des 7 Milliarden Parameter großen OpenLLaMA-Modells, die sich dem Niveau von Metas LLaMA-Modellen annähert.
  • Das OpenLLaMA-Team entwickelt zusätzlich eine 3 Milliarden Parameter-Version für Anwendungsfälle mit begrenzten Ressourcen.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!