Mit OpenLLaMA startet eine neue Ära der Open-Source-Chatbots

Update

OpenLLaMA 13B ist jetzt verfügbar

Update vom 19. Juni 2023:

Das OpenLLaMA-Team hat das OpenLLaMA-Modell mit 13 Milliarden Parametern veröffentlicht. Es ist auf Github verfügbar. Das Team weist darauf hin, dass der für OpenLLaMA verwendete Tokenizer nicht für Code geeignet ist. Ein für Code geeignetes Modell soll folgen.

Originalartikel vom 5. Mai 2023:

OpenLLaMA ist eine Open-Source Reproduktion des LLaMA-Sprachmodells von Meta und kann auch kommerziell genutzt werden.

Seit der Vorstellung von Metas großen Sprachmodellen der LLaMA-Familie und dem anschließenden Leak ist die Entwicklung von Open-Source-Chatbots explodiert. Modelle wie Alpaca, Vicuna oder OpenAssistant verwenden die Modelle von Meta als Grundlage für ihr Feintuning mit Instruktionsdatensätzen.

Allerdings sind die LLaMA-Modelle nur für Forschungszwecke lizenziert, was eine kommerzielle Nutzung der Open-Source-Modelle verhindert.

OpenLLaMA reproduziert Metas Sprachmodelle

Alternativen, die auf anderen frei verfügbaren Modellen aufbauen erreichen nicht die Qualität der Modelle von Meta, da LLaMA sich an den Erkenntnissen von Deepminds Chinchilla orientiert und mit besonders vielen Daten trainiert wurde.

Forschende von Berkeley AI Research wollen Metas LLaMA-Modelle daher im OpenLLaMA-Projekt nachbilden. Das Team verwendet für das Projekt den RedPajama-Datensatz von Together. Die Open-Source-Plattform kündigte im April ebenfalls an die LLaMA-Modelle reproduzieren zu wollen und veröffentlichte als ersten Schritt den 1,2 Billionen Parameter großen Datensatz.

Das Team von Berkeley veröffentlicht nun eine frühe Version des 7 Milliarden Parameter großen OpenLLaMA-Modells, das mit bisher 300 Milliarden von 1,2 Billionen Token trainiert wurde. Die Leistung soll sich bereits dem Niveau von LLaMA annähern und das Team ist zuversichtlich, dass das vollständig trainierte OpenLLaMA mit Metas Original konkurrenzfähig sein wird.

Empfehlung

KI in der Praxis

OpenAI bringt GPT-4.1: Neue Modellfamilie soll Agenten, lange Kontexte und Coding verbessern

As a part of our effort to replicate LLaMA in an open-source manner, we are pleased to announce the release of preview of the 7B OpenLLaMA model that has been trained with 200 billion tokens on the RedPajama dataset.https://t.co/jsMn9ZlaN0

— Hao Liu (@haoliuhl) May 2, 2023

OpenLLaMA kommt auch in 3 Milliarden Parameter Version

Neben dem Modell mit 7 Milliarden Parametern trainiert das OpenLLaMA-Team auch eine Variante mit 3 Milliarden Parametern, um den Einsatz von leistungsfähigen Sprachmodellen in Anwendungsfällen zu ermöglichen, in denen nur begrenzte Ressourcen zur Verfügung stehen.

Größere Modelle plant das Team aktuell nicht. Auch Togethers LLaMA-Reproduktion RedPajma beschränkt sich zunächst auf die 7-Milliarden-Parameter Variante. Das KI-Modell befindet sich aktuell ebenfalls im Training und dürfte die 500 Milliarden Token-Grenze mittlerweile überschritten haben.

Die Alpaca-Formel oder OpenAssistant können auf die dann bald verfügbaren, fertig trainierten OpenLLaMA- oder RedPajama-Modelle umsteigen, sind damit auch für die kommerzielle Nutzung einsetzbar und könnten Unternehmen so das erste Mal eine echte Open-Source-Alternative zu Services wie OpenAIs ChatGPT bieten.

Das erste OpenLLaMA-Modell gibt es auf HuggingFace, weitere Informationen und Code auf Github.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Mit OpenLLaMA startet eine neue Ära der Open-Source-Chatbots

OpenLLaMA reproduziert Metas Sprachmodelle

OpenAI bringt GPT-4.1: Neue Modellfamilie soll Agenten, lange Kontexte und Coding verbessern

OpenLLaMA kommt auch in 3 Milliarden Parameter Version

Eine GPU für ChatGPT-Niveau: Neue Methode revolutioniert Chatbot-Training

ChatGPT kann menschliches Verhalten täuschend echt simulieren

Unerwarteter Geldsegen: Wenn ChatGPT hilft, Bürokratie zu bewältigen

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Mit OpenLLaMA startet eine neue Ära der Open-Source-Chatbots

OpenLLaMA reproduziert Metas Sprachmodelle

OpenLLaMA kommt auch in 3 Milliarden Parameter Version

Artikel teilen

Bankverbindung