Inhalt
summary Zusammenfassung

Wissenschaftler der École Polytechnique Fédérale de Lausanne (EPFL) haben eine umfassende Analyse zum Vergleich von In-Context-Learning (ICL) und Instruction Fine-Tuning (IFT) bei der Anpassung großer Sprachmodelle (LLMs) durchgeführt.

Anzeige

Für ihre Untersuchung nutzten die Forscher den etablierten MT-Bench-Benchmark, der die Fähigkeit von Modellen zur Anweisungsbefolgung misst. Überraschenderweise zeigte die Studie, dass ICL und IFT bei der Verwendung weniger Trainingsbeispiele (bis zu 50) im ersten Durchgang des MT-Bench-Tests ähnliche Leistungen erbringen.

"Unsere Ergebnisse deuten darauf hin, dass ICL mit qualitativ hochwertigen Daten eine praktikable Alternative zu IFT sein kann, wenn nur eine begrenzte Anzahl von Demonstrationen zur Verfügung steht", erklären die Autoren der Studie.

Unterschiede bei komplexeren Aufgaben

Trotz der Ähnlichkeiten bei einfachen Aufgaben zeigten sich bei komplexeren Szenarien deutliche Unterschiede zwischen den beiden Methoden. Bei Konversationen mit mehreren Runden schnitt IFT signifikant besser ab als ICL.

Anzeige
Anzeige
Liniendiagramm: MT-Bench-Leistungsvergleich verschiedener Trainingsmethoden für Mistral-7B-v0.2, zwei Durchgänge, steigende Beispielzahl.
Die Grafik zeigt ähnliche Leistungen von ICL und IFT bei wenigen Trainingsbeispielen im MT-Bench-Test für Mistral-7B-v0.2. Mit zunehmender Anzahl von Beispielen zeigt sich jedoch eine deutliche Überlegenheit der IFT-Methode, insbesondere im zweiten Durchgang, in dem komplexere Konversationsaufgaben abgebildet werden. | Bild: Zhao et al.

Die Forscher vermuten, dass dies daran liegt, dass ICL-Modelle zu stark an den Stil einzelner Beispiele angepasst werden und Schwierigkeiten haben, auf komplexere Gespräche zu reagieren.

Ein weiterer Aspekt der Studie war die Untersuchung der URIAL-Methode, die Basis-Sprachmodelle mit nur drei Beispielen und Regeln zur Anweisungsbefolgung trainiert. Obwohl URIAL gute Ergebnisse lieferte, blieb die Methode hinter Modellen zurück, die durch Instruction Fine-Tuning angepasst wurden.

Die EPFL-Forscher konnten die Leistung von URIAL an die von Instruct annähern, indem sie zusätzliche Beispiele wie eine Greedy-Suche für die In-Context-Alignment-Modelle auswählten. Das zeige, wie wichtig qualitativ hochwertige Trainingsdaten für beide Methoden sind.

Tabelle: Leistungsvergleich URIAL vs. URIAL+Greedy Search für Mistral-7B-v0.2 und Llama-3.1-8B, verschiedene In-Context-Prompts.
Mit zusätzlichen, optimierten Beispielen nähert sich URIAL der Leistung von Instruct-Modellen an, was die Bedeutung hochwertiger Trainingsdaten für beide Ansätze unterstreicht. | Bild: Zhao et al.

Ein weiteres Ergebnis der Studie war der große Einfluss der Dekodierungsparameter auf die Modellleistung. Diese Parameter, die bestimmen, wie das Modell Texte erzeugt, spielten sowohl bei Basis-LLMs als auch bei Modellen, die URIAL verwenden, eine entscheidende Rolle. Mit den richtigen Dekodierungsparametern können sogar Basismodelle bereits Instruktionen befolgen.

Implikationen für die Praxis

Die Ergebnisse zeigen, dass In-Context-Learning eine effektive Methode zur schnellen Anpassung von Sprachmodellen sein kann, insbesondere wenn nur wenige Trainingsbeispiele zur Verfügung stehen.

Empfehlung

Allerdings bleibt Fine-Tuning die überlegene Methode, wenn es um die Generalisierung auf komplexere Aufgaben wie mehrstufige Konversationen geht. Zudem kann IFT bei größeren Datensätzen kontinuierlich bessere Ergebnisse erzielen, während ICL ab einer gewissen Anzahl von Beispielen stagniert.

Die Forscher betonen, dass die Wahl zwischen ICL und IFT von verschiedenen Faktoren abhängt, darunter die verfügbaren Ressourcen, die Datenmenge und die spezifischen Anforderungen der Anwendung. In jedem Fall unterstreicht die Studie die Bedeutung hochwertiger Trainingsdaten für beide Ansätze.

Die Studie mit dem Titel "Is In-Context Learning Sufficient for Instruction Following in LLMs?" wurde im Rahmen der NeurIPS 2024 vorgestellt. Der Code ist bei Github verfügbar.

ICL und IFT können natürlich auch kombiniert werden. Der Goldstandard könnte hier weiterhin sein, mit Beispielen im Prompt möglichst schnell eine hohe Qualität zu erreichen, die dann durch Feintuning weiter optimiert und stabilisiert wird.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der École Polytechnique Fédérale de Lausanne (EPFL) haben In-Context-Learning (ICL) und Instruction Fine-Tuning (IFT) bei der Anpassung großer Sprachmodelle verglichen und festgestellt, dass beide Methoden bei wenigen Trainingsbeispielen ähnliche Leistungen erbringen.
  • Bei komplexeren Aufgaben wie mehrstufigen Konversationen schnitt IFT jedoch signifikant besser ab als ICL. Die Forscher vermuten, dass ICL-Modelle zu stark an einzelne Beispiele angepasst werden und Schwierigkeiten haben, auf komplexe Gespräche zu reagieren.
  • Die Wahl zwischen ICL und IFT hängt von verschiedenen Faktoren ab, darunter verfügbare Ressourcen, Datenmenge und spezifische Anforderungen. Hochwertige Trainingsdaten sind für beide Ansätze entscheidend.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!