Stanfords Alpaca war erst der Anfang: In den letzten Wochen sind gleich mehrere KI-Modelle vorgestellt worden, die ihre Trainingsdaten von ChatGPT generieren lassen.
Mitte März präsentierten Forschende aus Stanford das Sprachmodell Alpaca, eine mit KI-generierten Daten feinjustierte Variante von Metas LLaMA 7B. Das Team trainierte das LLaMA-Modell mit 52.000 Beispiel-Instruktionen, die von OpenAI's GPT-3.5 (text-davinci-003) generiert wurden.
Alpaca erzielte in Benchmarks des Teams teilweise vergleichbare Ergebnisse und war mit 600 US-Dollar so günstig, dass etwa der Alignment-Forscher Eliezer Yudkowsky darin eine echte Herausforderung für Firmen wie OpenAI sieht.
Alpaca ist Open-Source, darf aber nicht kommerziell genutzt werden
Das für Alpaca verwendete LLaMA-Modell ist jedoch nicht für die kommerzielle Nutzung freigegeben, und die Nutzungsbedingungen von OpenAI GPT-3.5 verbieten die Verwendung des Modells für die Entwicklung von KI-Modellen, die mit OpenAI konkurrieren. Stanford hat das Modell daher nicht veröffentlicht, sondern nur die Trainingsdaten und den Code zur Generierung der Daten und zur Feinjustierung des Modells.
Kurz nach Alpaca wurden jedoch mehrere Open-Source-Modelle veröffentlicht, die direkt auf dieser Arbeit aufbauen oder stark davon inspiriert sind. Alpaca-LoRA verwendet die auch bei Stable Diffusion weit verbreitete ressourcenschonende LoRA-Methode (low-rank adaption) mit Metas LLaMA, um vergleichbare Ergebnisse wie Alpaca zu erzielen.
Das Start-up Nomic AI veröffentlichte GPT4All, eine LLaMA-Variante, die mit 430.000 GPT-3.5-Turbo-Outputs trainiert wurde, die aus einem Datensatz von insgesamt einer Million Outputs ausgewählt wurden.
ChatDoctor hingegen ist ein auf medizinische Chats spezialisiertes LLaMA-Modell. Dafür trainierten die Autor:innen der wissenschaftlichen Arbeit LLaMA zuerst mit den 52.000 Alpaca-Instruktionsbeispielen und anschließend mit 5.000 realen Konversationen zwischen Mediziner:innen und Patient:innen.
Das Start-up Databricks setzte für den Chatbot Dolly statt auf LLaMA auf den GPT-J-6B von EleutherAI und nutzt ebenfalls den Trainingsdatensatz von Alpaca. "Wir haben festgestellt, dass selbst Open-Source-Modelle, die Jahre alt sind und auf viel älteren Architekturen basieren, ein bemerkenswertes Verhalten zeigen, wenn sie mit einem kleinen Trainingsdatensatz für den Unterricht verfeinert werden", sagt Databricks über das Training mit den GPT-generierten Daten.
ChatGPT-Kopien und Datengold
Stanford hat mit Alpaca ein Rezept für bessere Open-Source-Modelle geliefert, das normalerweise auf den leistungsstarken LLaMA-Modellen mit spezialisierten Datensätzen basiert, die von ChatGPT generiert werden. Da nun auch die größeren LLaMA-Modelle durchgesickert sind, ist mit deutlich leistungsfähigeren Open-Source-Modellen zu rechnen - allerdings vorerst ohne kommerzielle Lizenz.
Dass sich ChatGPT-Ausgaben als erstklassige Trainingsdaten eignen, zeigt auch ein Bericht, dass Google-Mitarbeiter:innen wohl kurzfristig ChatGPT-Dialoge als Trainingsdaten für Bard nutzen wollten. Der Prozess wurde jedoch abgebrochen, als ein Mitarbeiter das Management darauf aufmerksam machte.
Qualitativ hochwertige, von Menschen generierte Daten bleiben jedoch für leistungsfähige Modelle relevant - zumindest für Unternehmen wie OpenAI, die ihre eigenen Modelle verbessern wollen. Dies zeigt sich auch daran, dass OpenAI Berichten zufolge zahlreiche menschliche Expert:innen beschäftigt, um spezialisierte Daten zu verifizieren oder zu erstellen, etwa für Code-Aufgaben.
Für die Open-Source-Gemeinschaft, die eine kostenlose und effiziente Alternative zu ChatGPT schaffen will, könnten die KI-Outputs jedoch vorerst ausreichen.