Forscher haben herausgefunden, dass große Sprachmodelle bessere Ergebnisse liefern, wenn man ihnen sehr viele Beispiele direkt in die Eingabe gibt (Prompt). Dieses so genannte "In-Context Learning" (ICL) könnte eine Alternative zum aufwendigen Finetuning sein.
Je größer das Kontextfenster von Large Language Models (LLMs) ist, desto mehr Beispiele können in den Prompts verwendet werden - manchmal in der Größenordnung ganzer Trainingsdatensätze. Forscher um Amanda Bertsch von der Carnegie Mellon und der Tel Aviv University haben untersucht, wie sich In-Context Learning (ICL) mit enormen Mengen von Beispielen im Kontext verhält.
Das Ergebnis: Je mehr Beispiele man dem Modell im Prompt geben kann, desto besser ist das generierte Ergebnis. Die Forscher beobachteten, dass die Leistung von ICL mit Hunderten oder Tausenden Beispielen im Prompt weiter zunimmt, insbesondere bei Aufgaben mit vielen Antwortmöglichkeiten.
Eine Methode zur Auswahl von Beispielen für ICL ist das sogenannte "Retrieval". Dabei sucht ein Algorithmus für jede neue Frage die relevantesten Beispiele aus einem großen Datensatz heraus und stellt sie dem Modell als Kontext zur Verfügung.
Dadurch wird die Leistung des Modells gegenüber der Zufallsauswahl weiter verbessert, insbesondere wenn nur wenige Beispiele verwendet werden. Bei einer großen Anzahl von Beispielen flacht der Leistungsgewinn durch das Retrieval ab. Das deutet darauf hin, dass der Prompt mit zunehmender Länge robuster wird und das einzelne Beispiel bzw. die Reihenfolge der Beispiele an Bedeutung verliert.
Finetuning erfordert in der Regel mehr Daten als ICL, kann aber manchmal die Leistung von ICL mit sehr langen Kontexten übertreffen. In-Context-Learning mit langen Beispielen kann in einigen Fällen effektiver sein als Finetuning, da es mit weniger Aufwand mehr Leistung erbringt. Bei ICL werden die Aufgaben jedoch nicht wirklich gelernt, sondern nur anhand der Beispiele gelöst, so die Forscher.
Für die Experimente kamen spezielle Varianten der Sprachmodelle Llama-2-7B und Mistral-7B zum Einsatz, die besonders lange Texteingaben verarbeiten können.
Die Ergebnisse deuten darauf hin, dass ICL mit sehr vielen Beispielen eine gute Alternative zu Retrieval und Finetuning sein kann, insbesondere wenn die Modelle immer besser mit extrem langen Texten umgehen können.
Letztlich ist es auch eine Kostenfrage, ob ICL oder Finetuning eingesetzt wird. Finetuning hat einen höheren einmaligen Aufwand, während ICL durch die vielen Beispiele im Prompt ständig mehr Rechenleistung benötigt. Entsprechend fällt auch das Fazit der Forschenden aus.
Während das Fine-Tuning mit vollständigen Datensätzen immer noch eine leistungsfähige Option ist, wenn die Daten die Kontextlänge weit überschreiten, deuten unsere Ergebnisse darauf hin, dass das Long-Context-ICL eine effiziente Alternative ist - im Austausch für die Kosten des Fine-Tunings gegen die erhöhte Rechenzeit für die Inferenz. Da die Effektivität und Effizienz der Verwendung von sehr langen Modellkontexten weiter zunimmt, glauben wir, dass ICL mit langen Kontexten ein leistungsfähiges Werkzeug für viele Aufgaben sein wird.
Aus dem Paper
Die Studie bestätigt die Ergebnisse einer kürzlich von Google Deepmind veröffentlichten Studie zu Many-Shot-Prompts. Auch hier konnten mit hunderten bis tausenden Beispielen die Ergebnisse des LLMs zum Teil deutlich verbessert werden.