Inhalt
summary Zusammenfassung

Forscher der Ohio State University und der Carnegie Mellon University haben in einer neuen Studie untersucht, ob Transformer-Modelle in der Lage sind, implizite Schlussfolgerungen zu ziehen. Ihre Ergebnisse zeigen, dass die Modelle diese Fähigkeit durch so genanntes "Grokking" erwerben können - allerdings nicht für alle Arten von Schlussfolgerungen gleichermaßen.

Die Wissenschaftler untersuchten zwei repräsentative Typen von Schlussfolgerungen: Komposition und Vergleich. Bei der Komposition müssen mehrere Fakten miteinander verknüpft werden, zum Beispiel "Baracks Frau heißt Michelle" und "Michelle wurde 1964 geboren", um den Satz "Baracks Frau wurde [1964] geboren" zu vervollständigen. Beim Vergleich werden Attributwerte von Entitäten verglichen, z. B. das Alter zweier Personen.

Die Ergebnisse zeigen, dass Transformer-Modelle bei beiden Aufgabentypen durch längeres Training über den Punkt des Overfittings hinaus hin zum "Grokking" die Fähigkeit zum impliziten Schlussfolgern erwerben. So erreichte das Netz nach 14.000 Trainingsschritten zwar eine gesättigte Trainingsleistung, aber noch keine Generalisierung. Mit zunehmender Anzahl von Trainingsschritten nahm jedoch die Generalisierungsleistung zu, bevor nach etwa 50-fachem Training eine nahezu perfekte Genauigkeit erreicht wurde.

Aber was genau bedeutet hier Generalisierung? Das Team unterteilte die Trainingsdaten in "atomare" Fakten und daraus abgeleitete Fakten - ähnlich wie im obigen Beispiel. Die atomaren Fakten wurden in "In-Distribution"- und "Out-of-Distribution"-Fakten unterteilt. Anders als der Name vermuten lässt, wurde das Transformer-Modell jedoch mit allen atomaren Fakten trainiert. Aus diesen wurden jedoch auch abgeleitete Fakten gebildet, mit denen das Netz ebenfalls trainiert wurde - allerdings nur für die abgeleiteten Fakten, die nicht aus den OOD-Fakten gebildet wurden. Diese letzte Gruppe wurde für die Tests zurückgehalten. Damit stellt das Team sicher, dass es in seinen Tests auch überprüfen kann, ob die Netze systematisch generalisieren lernen - also z.B. im Fall der Kompositionsaufgaben bekannte Fakten (gelernte atomare OOD-Fakten) zu neuen abgeleiteten Fakten (nicht gelernte abgeleitete OOD-Fakten) kombinieren können.

Anzeige
Anzeige
Bild: Wang et al.

In den Tests stellte das Team einen deutlichen Unterschied im Generalisierungsverhalten fest: Während die Modelle bei Vergleichsaufgaben auch auf ungesehene Beispiele (Out-of-Distribution, OOD) generalisieren können, gelingt dies bei Kompositionsaufgaben nicht. Dies deckt sich mit vielen anderen Forschungsergebnissen, die das Gleiche festgestellt haben. Das Team fand außerdem heraus, dass die Geschwindigkeit der Generalisierung mit dem Verhältnis zwischen abgeleiteten und atomaren Fakten im Training korreliert und nicht mit der absoluten Größe der Trainingsdaten.

Warum Transformer nicht Generalisierung - und wie das Problem vielleicht gelöst werden kann

Das Besondere an dieser Arbeit: Das Team hat eine Erklärung für das unterschiedliche Verhalten. Die Forscher führen den Unterschied auf die innere Struktur der gelernten Schaltkreise zurück. Bei Vergleichsaufgaben werden die relevanten Fakten parallel verarbeitet, was eine systematische Generalisierung ermöglicht. Bei Kompositionsaufgaben hingegen werden die Fakten sequentiell in verschiedenen Schichten des Netzwerks verarbeitet, was die OOD-Generalisierung behindert.

Dies bedeutet im Umkehrschluss, dass eine Verbindung zwischen den Schichten eine OOD-Generalisierung für Kompositionsaufgaben ermöglichen könnte. Die Autoren schlagen daher Anpassungen der Transformer-Architektur vor. Insbesondere zeigen sie, dass ein Parameter-Sharing-Schema ähnlich dem Universal Transformer tatsächlich die OOD-Generalisierung bei Kompositionsaufgaben ermöglicht, wenn auch langsamer als die In-Distribution-Generalisierung.

Bild: Wang et al.

Um zusätzlich die zentrale Bedeutung des "parametrischen" Wissens - also des impliziten, im Netzwerk gespeicherten Wissens - für die Generalisierung zu verdeutlichen, entwickelten die Forscher eine anspruchsvolle Aufgabe mit einem großen Suchraum. Sie trainierten ein Modell mit den Daten zu "Grokking" und verglichen seine Leistung mit anderen Modellen, die auf dieses Wissen nur über Retrieval-Augmented Generation oder innerhalb des Kontextfensters zugreifen konnten. Während moderne Sprachmodelle wie GPT-4-Turbo und Gemini-Pro-1.5 an dieser Aufgabe scheiterten, konnte ein vollständig "gegrokkter" Transformer die Aufgabe mit nahezu perfekter Genauigkeit lösen.

Für alle Experimente verwendete das Team synthetische Datensätze, so dass noch nicht klar ist, ob die Ergebnisse sich vollständig in realen Szenarien widerspiegeln. Darüber hinaus wurden nur zwei spezifische Formen der Schlussfolgerung untersucht.

Empfehlung

Das Team empfiehlt weitere Forschung zu geeigneten schichtübergreifenden Mechanismen in Transformatoren, um die Generalisierung zu verbessern, sowie zu der Frage, wie parametrisches und nicht-parametrisches (Kontextfenster / RAG) Gedächtnis in Sprachmodellen ausbalanciert werden können. Weitere Forschung sollte sich zudem auf die Ausweitung der Analyse auf ein breiteres Spektrum von Reasoning-Aufgaben und komplexere Sprachmodelle konzentrieren.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der Ohio State University und der Carnegie Mellon University untersuchten, ob Transformer-Modelle durch "Grokking" die Fähigkeit erwerben können, implizite Schlussfolgerungen zu ziehen, insbesondere bei Kompositions- und Vergleichsaufgaben.
  • Die Ergebnisse zeigen, dass die Modelle bei beiden Aufgabentypen durch längeres Training über den Punkt des Overfittings hinaus die Fähigkeit zum impliziten Schlussfolgern erwerben, jedoch nur bei Vergleichsaufgaben auch auf ungesehene Beispiele generalisieren können.
  • Die Forscher führen den Unterschied auf die innere Struktur der gelernten Schaltkreise zurück und empfehlen Anpassungen der Transformer-Architektur, die in einem ersten Experiment auch einen qualitativen Sprung hinlegt.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!