Viele Open-Source-Sprachmodelle nutzen ChatGPT-Outputs als Trainingsdaten. Das kann ziemlich schiefgehen.
Forschende aus Stanford stellten im März das Sprachmodell Alpaca vor, eine Variante von Metas LLaMA mit 7 Milliarden Parametern, das mit 52.000 von GPT-3.5 generierten Instruktionsbeispielen trainiert wurde. In ihrer Arbeit zeigte das Team, dass Alpaca LLaMA in Tests deutlich übertrifft - das Finetuning mit ChatGPT-Beispielen wurde in der Folge in vielen Open-Source-Projekten als eine Art Alpaca-Formel reproduziert.
Das Finetuning mit solchen Beispielen soll das Verhalten des zugrundeliegenden Sprachmodells an das von OpenAI ChatGPT annähern und wird auch als Instruction Tuning bezeichnet. Im Wesentlichen handelt es sich dabei um eine Form des überwachten Lernens, bei der ein Datensatz z.B. Fragen mit Antworten oder die Aufforderung, einen Text zusammenzufassen, mit einer separaten Zusammenfassung enthält. Das Ziel ist ein hilfreicher Chatbot, der möglichst wenig Fehler produziert und zugeben kann, wenn er nicht weiter weiß.
OpenAI warnt vor einfachem Instruction-Tuning
Doch das Instruction-Tuning mit ChatGPT-Beispielen kann nach hinten losgehen, argumentierte kürzlich der Mitbegründer von OpenAI, John Schulman. Das Unternehmen hat für das Instruction-Tuning von GPT-3.5 und GPT-4 große Datensätze von Menschen erstellen lassen.
Im Beispiel der Zusammenfassungen werden diese also von Menschen geschrieben. Alpaca hingegen verwendet die von GPT-3.5 generierten Zusammenfassungen und vermeidet so die Notwendigkeit, umfangreiche Datensätze von Menschen erstellen zu lassen.
Laut Schulman könnte dieser Ansatz jedoch das Problem der Halluzinationen in Open-Source-Modellen erheblich verschärfen. Denn diese entstehen laut dem OpenAI-Forscher häufig durch das Instruction-Tuning mit Datensätzen, die Wissen enthalten, das im ursprünglichen Modell nicht vorhanden ist. Mit einer einfachen Frage wie "Wie heißt der Spin-off-Film zu Han Solo" plus der Antwort "Solo" lernt ein Modell, das diese Antwort bereits kennt, korrekte Antworten zu geben.
Ein Modell, das diese Antwort nicht kennt, lernt im besten Fall, diese Information zu reproduzieren - im schlimmsten Fall aber, eine Antwort zu geben, egal ob es diese Information kennt oder nicht - also zu halluzinieren.
Da nicht klar ist, welche Informationen genau in einem Sprachmodell wie LLaMA enthalten sind, kann ein von ChatGPT generierter Datensatz - also ein Datensatz eines viel größeren Modells mit mehr Wissen - zu Tausenden Beispielen führen, in denen ein Modell wie Alpaca lernt, zu antworten, auch wenn es die Antwort nicht kennt.
OpenAssistant zeigt einen Ausweg
Laut Schulman ist Reinforcement Learning mit oder ohne menschliches Feedback eine Möglichkeit, erlerntes problematisches Verhalten zu korrigieren - alle derzeit verfügbaren Open-Source-Modelle verwenden jedoch ausschließlich Instruction-Tuning. OpenAssistant sticht hier positiv hervor, das Projekt hat seine Daten aufwendig mit menschlichen Freiwilligen gesammelt und plant neben größeren Modellen auch das Reinforcement Learning der Modelle.
Der von OpenAssistant erzeugte menschliche Datensatz umgeht auch ein weiteres Problem der Alpaca-Formel: Ein Sprachmodell, das von ChatGPT lernt, wird in den meisten Fällen ähnliche Ausgaben erzeugen und die darin enthaltenen Qualitätseinschränkungen oder Verzerrungen reproduzieren.
Wenn die Ausgaben dieser Modelle dann, wie bereits ChatGPT- oder Bing-Outputs, das Internet durchdringen, könnte eine Art Echokammer entstehen, in der OpenAI-Modelle und Open-Source-Modelle ihre eigenen Fehler und Verzerrungen verstärken.