OpenAssistant: Open-Source ChatGPT-Alternative startet

16. April 2023

OpenAssistant

OpenAssistant soll eine echte Open-Source-Alternative zu OpenAIs ChatGPT werden. Jetzt sind erste Modelle, Trainingsdaten und Code verfügbar.

Das OpenAssistant Projekt startete im Dezember, kurz nachdem OpenAI ChatGPT veröffentlicht hatte. Ziel ist es, einen offenen KI-Assistenten mit den gleichen Fähigkeiten zu schaffen.

Dafür sammelte das Team über Monate hinweg mithilfe von mehr als 13.500 Freiwilligen eine "von Menschen erstellte und kommentierte Konversationssammlung im Assistenten-Stil, bestehend aus 161.443 Nachrichten, verteilt auf 66.497 Konversations-Bäume, in 35 verschiedenen Sprachen, kommentiert mit 461.292 Qualitätsbewertungen."

Jetzt ist OpenAssistant verfügbar.

OpenAssistants Sprachmodelle und Trainingsdaten sind frei verfügbar

Das OpenAssistant-Team hat mit den gesammelten Instruktionsdaten mehrere Sprachmodelle verfeinert, darunter Varianten des LLaMA-Modells von Meta und des Pyhtia-Modells von EleutherAI. Die größte Variante basiert auf dem LLaMA-Modell mit 30 Milliarden Parametern. Die Modelle sind also wie Alpaca oder Vicuna "instruction-tuned" und wurden noch nicht weiter durch Reinforcement Learning mit menschlichem Feedback (RLHF) verbessert.

Dennoch sollen sich generierte Ergebnisse der Chatbots denen des gpt-3.5-Turbo-Modells von ChatGPT annähern, so das Ergebnis einer Vergleichsstudie mit Freiwilligen. Erste Experimente mit Plugins wie einer Google-Suche laufen bereits. Außerdem plant das Team, in Zukunft ein LLaMA-30B-Modell mit RLHF zu trainieren und zu veröffentlichen.

Die Pythia-Modelle sind bereits verfügbar, die LLaMA-Modelle werden in Kürze veröffentlicht. Während die LLaMA-Modelle aufgrund von Meta-Bedingungen nicht kommerziell genutzt werden können, sind die Pythia-Modelle auch für kommerzielle Zwecke freigegeben.

Neben den Modellen veröffentlicht das Team auch den Code und mit OpenAssistant Conversations die gesammelten Daten. Zudem können alle Modelle über ein Webinterface ausprobiert werden - dort können die Konversationen auch bewertet werden und dienen so der weiteren Verbesserung der Modelle.

OpenAssistant spricht offen über aktuelle Einschränkungen

Laut einem begleitenden Papier weisen die Modelle die bekannten Probleme von Sprachmodellen auf, wie z.B. Halluzinationen. Die gesammelten Trainingsdaten seien zudem überwiegend von männlichen Kommentatoren mit einem Durchschnittsalter von 26 Jahren beigesteuert worden. "Dieses demografische Profil kann zu unbeabsichtigten Verzerrungen im Datensatz führen, da es unweigerlich die Werte, Perspektiven und Interessen der Kommentatoren widerspiegelt", heißt es in der Veröffentlichung.

Das Team hat auch Maßnahmen ergriffen, um schädliche Nachrichten im Datensatz zu erkennen und zu entfernen, aber das System sei nicht unfehlbar.

"Angesichts der oben genannten Einschränkungen empfehlen wir, unsere LLMs nur in akademischen Forschungskontexten zu verwenden", so das Team. "Wir empfehlen Forschenden dringend, die Sicherheit und Verzerrung der Modelle gründlich zu untersuchen, bevor sie in nachgelagerten Aufgaben eingesetzt werden. Es ist wichtig zu erkennen, dass veröffentlichte Modelle unsicheres Verhalten zeigen können und wahrscheinlich anfällig für Prompt-Injection-Angriffe sind."

Das OpenAssistant-Projekt soll auch die Alignment-Forschung demokratisieren

Die KI-Forschung, insbesondere im Bereich der großen Sprachmodelle und ihres Alignment, d.h. ihrer Anpassung an menschliche Werte, sei bisher im Wesentlichen auf eine Handvoll Forschungslabore beschränkt, die über die notwendigen Ressourcen für das Training und die Datensammlung verfügten, so das Team.

Dieses Monopol auf den Zugang zu qualitativ hochwertigen Daten untergrabe das Potenzial für inklusive und diverse Forschungsunternehmungen, insbesondere in Bezug auf die Herausforderungen des Alignments, "die wahrscheinlich zu den wichtigsten Forschungsgebieten unserer Zeit gehören."

OpenAssistant, die veröffentlichten Modelle und der frei verfügbare Datensatz seien daher ein Versuch, diese Forschung zu demokratisieren, heißt es im Paper.

Damit richten sich die Autor:innen gegen OpenAIs Vorgehen, die Entwicklung der eigenen Sprachmodelle und Datenbeschaffung immer intransparenter zu gestalten und die Alignment-Forschung mit einer kleinen Gruppe ausgesuchter Spezialist:innen durchzuführen.

Wer die Modelle ausprobieren möchte, kann das über das OpenAssistant-Webinterface tun. Den Code und weitere Details gibt es auf GitHub. Die Modelle sind auf Hugging Face verfügbar.

OpenAssistant wurde von Andreas Köpf, Yannic Kilcher, Huu Nguyen und Christoph Schumann gegründet und umfasst ein Team von über 20 Entwickler:innen, Daten- und Sicherheitsexpert:innen, sowie einem Moderations- und Dokumentationsteam.

Mit Rechenressourcen, Tools und anderen Hilfestellung wird das Projekt von Redmond AI, Hugging Face, Weights & Biases, sowie Stabilty AI und LAION unterstützt.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren