Eine Studie zeigt: Wenn große Sprachmodelle (LLMs) hunderte oder tausende von Beispielen direkt im Prompt sehen, verbessert sich ihre Leistung bei einer Vielzahl von Aufgaben deutlich.
Forscher von Google, DeepMind und anderen Institutionen haben untersucht, wie sich die Leistung von großen Sprachmodellen (LLMs) verbessert, wenn man ihnen sehr viele Beispiele zum Lernen direkt im Prompt gibt, anstatt nur einige wenige. Dieser Ansatz wird als "Many-Shot In-Context Learning" (ICL) bezeichnet.
In-Context Learning (ICL) bedeutet, dass die Beispiele direkt im Kontext (Prompt) gegeben werden, ohne dass die Modellparameter wie beim Fine-Tuning angepasst werden. Letzteres ist wesentlich aufwendiger und teurer.
Bisher gab man meist nur wenige Beispiele (one shot, few shot), da die Modelle nicht viel Text auf einmal verarbeiten und generieren konnten. Durch größere "Kontextfenster", also eine Art Kurzzeitgedächtnis, ist es nun möglich, dem Modell hunderte oder tausende Beispiele direkt im Prompt vorzugeben (many shot).
Die Forscher testeten Many-Shot ICL mit dem Sprachmodell Gemini 1.5 Pro, das bis zu einer Million Token (etwa 700.000 Wörter) im Kontext verarbeiten kann. Das Ergebnis: Mit vielen Beispielen war die KI bei Aufgaben wie Übersetzen, Zusammenfassen, Planen und Beantworten von Fragen dem Few-Shot-Lernen deutlich überlegen.
So schlug das Modell mit vielen Übersetzungsbeispielen sogar Google Translate bei der Übersetzung ins Kurdische und Tamilische. Auch beim Zusammenfassen von Nachrichten konnte es fast mit spezialisierten Programmen mithalten, hatte aber gelegentlich Halluzinationen wie falsche Daten und Uhrzeiten, die auch in den Lernbeispielen nicht vorkamen. Außerdem fiel die Leistung bei mehr als 50 Beispielen ab.
LLMs können ihre eigenen Lernbeispiele generieren
Für knifflige logische Aufgaben, wie mathematische oder naturwissenschaftliche Probleme, ließen die Forscher das Modell sogar selbst Lösungen erstellen und nutzten diese als zusätzliche Lernbeispiele. Dieser Ansatz ("Reinforced ICL") funktionierte zuverlässiger als die von Menschen erstellten Lösungen.
In einem Experiment wurden dem Modell sogar nur die Probleme ohne Lösungen gegeben ("Unsupervised ICL"). Bei einigen logischen Aufgaben funktionierte dies immer noch besser als einige vollständige Beispiele. An die selbstgenerierten Lösungen mit "Reinforced ICL" kam es aber meist nicht ganz heran.
Die Forscher stellten auch fest, dass das Modell Fehler aus dem vorherigen Training "verlernte" und sogar abstrakte mathematische Muster erkennen konnte, wenn genügend Beispiele gezeigt wurden.
Allerdings machte es einen Unterschied, in welcher Reihenfolge die Beispiele gezeigt wurden. Es bleiben zudem Fragen offen, zum Beispiel warum die Leistung manchmal mit noch mehr Beispielen wieder abfällt. Das müsste zukünftige Forschung klären.
Die Ergebnisse zeigen: Sprachmodelle können mit vielen Beispielen im Prompt zuverlässig lernen. Das könnte in Zukunft aufwendiges Training für spezielle Aufgaben überflüssig machen. Außerdem ergibt sich daraus eine zusätzliche Aufgabe für die Verfasser von Prompts: Sie müssen qualitativ hochwertige Beispiele finden oder generieren, die genau zur Aufgabe passen.