Skip to content

LLM-Performance: Viele Beispiele im Prompt können effektiver sein als Feintuning

Image description
Midjourney prompted by THE DECODER

Kurz & Knapp

  • Forscher der Carnegie Mellon und der Tel Aviv University haben herausgefunden, dass die Ergebnisse von Large Language Models (LLMs) besser werden, je mehr Beispiele man ihnen direkt in der Eingabe (Prompt) als Kontext gibt. Diese Methode namens "In-Context Learning" (ICL) könnte eine Alternative zum aufwendigen Finetuning sein.
  • Bei ICL mit sehr vielen Beispielen im Prompt nimmt die Leistung der Sprachmodelle weiter zu, insbesondere bei Aufgaben mit vielen Antwortmöglichkeiten. Retrieval-Methoden zur Auswahl relevanter Beispiele verbessern die Ergebnisse zusätzlich. Finetuning erfordert mehr Daten als ICL, kann aber in manchen Fällen noch bessere Ergebnisse liefern.
  • Die Forscher glauben, dass ICL mit langen Kontexten ein leistungsfähiges Werkzeug für viele Aufgaben sein wird, wenn Sprachmodelle immer besser mit extrem langen Texten umgehen können. Letztlich ist es auch eine Frage der Kosten, ob ICL oder Finetuning eingesetzt wird. Die Studie bestätigt frühere Ergebnisse von Google Deepmind zu Many-Shot-Prompts.

Forscher haben herausgefunden, dass große Sprachmodelle bessere Ergebnisse liefern, wenn man ihnen sehr viele Beispiele direkt in die Eingabe gibt (Prompt). Dieses so genannte "In-Context Learning" (ICL) könnte eine Alternative zum aufwendigen Finetuning sein.

Je größer das Kontextfenster von Large Language Models (LLMs) ist, desto mehr Beispiele können in den Prompts verwendet werden - manchmal in der Größenordnung ganzer Trainingsdatensätze. Forscher um Amanda Bertsch von der Carnegie Mellon und der Tel Aviv University haben untersucht, wie sich In-Context Learning (ICL) mit enormen Mengen von Beispielen im Kontext verhält.

Das Ergebnis: Je mehr Beispiele man dem Modell im Prompt geben kann, desto besser ist das generierte Ergebnis. Die Forscher beobachteten, dass die Leistung von ICL mit Hunderten oder Tausenden Beispielen im Prompt weiter zunimmt, insbesondere bei Aufgaben mit vielen Antwortmöglichkeiten.

Eine Methode zur Auswahl von Beispielen für ICL ist das sogenannte "Retrieval". Dabei sucht ein Algorithmus für jede neue Frage die relevantesten Beispiele aus einem großen Datensatz heraus und stellt sie dem Modell als Kontext zur Verfügung.

Dadurch wird die Leistung des Modells gegenüber der Zufallsauswahl weiter verbessert, insbesondere wenn nur wenige Beispiele verwendet werden. Bei einer großen Anzahl von Beispielen flacht der Leistungsgewinn durch das Retrieval ab. Das deutet darauf hin, dass der Prompt mit zunehmender Länge robuster wird und das einzelne Beispiel bzw. die Reihenfolge der Beispiele an Bedeutung verliert.

Finetuning erfordert in der Regel mehr Daten als ICL, kann aber manchmal die Leistung von ICL mit sehr langen Kontexten übertreffen. In-Context-Learning mit langen Beispielen kann in einigen Fällen effektiver sein als Finetuning, da es mit weniger Aufwand mehr Leistung erbringt. Bei ICL werden die Aufgaben jedoch nicht wirklich gelernt, sondern nur anhand der Beispiele gelöst, so die Forscher.

Prompts mit vielen Beispielen können Fine-Tuning übertreffen. | Bild: Bertsch et al.

Für die Experimente kamen spezielle Varianten der Sprachmodelle Llama-2-7B und Mistral-7B zum Einsatz, die besonders lange Texteingaben verarbeiten können.

Die Ergebnisse deuten darauf hin, dass ICL mit sehr vielen Beispielen eine gute Alternative zu Retrieval und Finetuning sein kann, insbesondere wenn die Modelle immer besser mit extrem langen Texten umgehen können.

Letztlich ist es auch eine Kostenfrage, ob ICL oder Finetuning eingesetzt wird. Finetuning hat einen höheren einmaligen Aufwand, während ICL durch die vielen Beispiele im Prompt ständig mehr Rechenleistung benötigt. Entsprechend fällt auch das Fazit der Forschenden aus.

Während das Fine-Tuning mit vollständigen Datensätzen immer noch eine leistungsfähige Option ist, wenn die Daten die Kontextlänge weit überschreiten, deuten unsere Ergebnisse darauf hin, dass das Long-Context-ICL eine effiziente Alternative ist - im Austausch für die Kosten des Fine-Tunings gegen die erhöhte Rechenzeit für die Inferenz. Da die Effektivität und Effizienz der Verwendung von sehr langen Modellkontexten weiter zunimmt, glauben wir, dass ICL mit langen Kontexten ein leistungsfähiges Werkzeug für viele Aufgaben sein wird.

Aus dem Paper

Die Studie bestätigt die Ergebnisse einer kürzlich von Google Deepmind veröffentlichten Studie zu Many-Shot-Prompts. Auch hier konnten mit hunderten bis tausenden Beispielen die Ergebnisse des LLMs zum Teil deutlich verbessert werden.

Quelle: Arxiv

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren