Prompts mit vielen Beispielen verbessern die Leistung großer Sprachmodelle

Eine Studie zeigt: Wenn große Sprachmodelle (LLMs) hunderte oder tausende von Beispielen direkt im Prompt sehen, verbessert sich ihre Leistung bei einer Vielzahl von Aufgaben deutlich.

Forscher von Google, DeepMind und anderen Institutionen haben untersucht, wie sich die Leistung von großen Sprachmodellen (LLMs) verbessert, wenn man ihnen sehr viele Beispiele zum Lernen direkt im Prompt gibt, anstatt nur einige wenige. Dieser Ansatz wird als "Many-Shot In-Context Learning" (ICL) bezeichnet.

In-Context Learning (ICL) bedeutet, dass die Beispiele direkt im Kontext (Prompt) gegeben werden, ohne dass die Modellparameter wie beim Fine-Tuning angepasst werden. Letzteres ist wesentlich aufwendiger und teurer.

Bisher gab man meist nur wenige Beispiele (one shot, few shot), da die Modelle nicht viel Text auf einmal verarbeiten und generieren konnten. Durch größere "Kontextfenster", also eine Art Kurzzeitgedächtnis, ist es nun möglich, dem Modell hunderte oder tausende Beispiele direkt im Prompt vorzugeben (many shot).

Die Forscher testeten Many-Shot ICL mit dem Sprachmodell Gemini 1.5 Pro, das bis zu einer Million Token (etwa 700.000 Wörter) im Kontext verarbeiten kann. Das Ergebnis: Mit vielen Beispielen war die KI bei Aufgaben wie Übersetzen, Zusammenfassen, Planen und Beantworten von Fragen dem Few-Shot-Lernen deutlich überlegen.

So schlug das Modell mit vielen Übersetzungsbeispielen sogar Google Translate bei der Übersetzung ins Kurdische und Tamilische. Auch beim Zusammenfassen von Nachrichten konnte es fast mit spezialisierten Programmen mithalten, hatte aber gelegentlich Halluzinationen wie falsche Daten und Uhrzeiten, die auch in den Lernbeispielen nicht vorkamen. Außerdem fiel die Leistung bei mehr als 50 Beispielen ab.

Bei Tests mit dem XSUM-Datensatz für Nachrichtenzusammenfassungen verbesserte sich die Leistung bis zu 50 Beispielen im Prompt. Danach ließ die Leistung nach, ohne dass die Forscherinnen und Forscher eine Erklärung dafür hatten. | Bild: Agarwal, Singh et al.

LLMs können ihre eigenen Lernbeispiele generieren

Für knifflige logische Aufgaben, wie mathematische oder naturwissenschaftliche Probleme, ließen die Forscher das Modell sogar selbst Lösungen erstellen und nutzten diese als zusätzliche Lernbeispiele. Dieser Ansatz ("Reinforced ICL") funktionierte zuverlässiger als die von Menschen erstellten Lösungen.

In einem Experiment wurden dem Modell sogar nur die Probleme ohne Lösungen gegeben ("Unsupervised ICL"). Bei einigen logischen Aufgaben funktionierte dies immer noch besser als einige vollständige Beispiele. An die selbstgenerierten Lösungen mit "Reinforced ICL" kam es aber meist nicht ganz heran.

Die Forscher stellten auch fest, dass das Modell Fehler aus dem vorherigen Training "verlernte" und sogar abstrakte mathematische Muster erkennen konnte, wenn genügend Beispiele gezeigt wurden.

Empfehlung

KI in der Praxis

Große Sprachmodelle lassen sich von schlechten Beispielen verführen

Allerdings machte es einen Unterschied, in welcher Reihenfolge die Beispiele gezeigt wurden. Es bleiben zudem Fragen offen, zum Beispiel warum die Leistung manchmal mit noch mehr Beispielen wieder abfällt. Das müsste zukünftige Forschung klären.

Die Ergebnisse zeigen: Sprachmodelle können mit vielen Beispielen im Prompt zuverlässig lernen. Das könnte in Zukunft aufwendiges Training für spezielle Aufgaben überflüssig machen. Außerdem ergibt sich daraus eine zusätzliche Aufgabe für die Verfasser von Prompts: Sie müssen qualitativ hochwertige Beispiele finden oder generieren, die genau zur Aufgabe passen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Prompts mit vielen Beispielen verbessern die Leistung großer Sprachmodelle

LLMs können ihre eigenen Lernbeispiele generieren

Große Sprachmodelle lassen sich von schlechten Beispielen verführen

Ex-OpenAI-Forscher erklärt das Rückwärtsrennen bei KI-Modellen

Sprachmodelle können große Dokumente laut neuem Benchmark nicht zuverlässig verarbeiten

Sprachmodelle wie GPT-4 lernen laut Studie eher auswendig als zu schlussfolgern

Rule-Based Rewards: OpenAI gibt Einblick in den Sicherheitsstack von GPT-4

Ex-OpenAI-Forscher erklärt das Rückwärtsrennen bei KI-Modellen

OpenAI-Projekt "Strawberry" könnte mathematische Probleme auf hohem Niveau lösen

Prompts mit vielen Beispielen verbessern die Leistung großer Sprachmodelle

LLMs können ihre eigenen Lernbeispiele generieren

Artikel teilen

Bankverbindung