Forscher steigern mit Test-Time Training (TTT) die Fähigkeit von KI-Sprachmodellen, logische Schlussfolgerungen zu ziehen und Probleme zu lösen, erheblich und stellen im anspruchsvollen ARC-Benchmark einen neuen Rekord auf.
Forschende am Massachusetts Institute of Technology (MIT) haben eine Methode entwickelt, mit der künstliche neuronale Netze ihre Fähigkeiten zum logischen Schlussfolgern und Problemlösen deutlich ausbauen können. Beim sogenannten "Test-Time Training" (TTT) werden die Parameter der Modelle während der Anwendung dynamisch an die aktuellen Eingabedaten angepasst.
"Sprachmodelle zeigen beeindruckende Leistungen bei Aufgaben, die ihrer Trainingsverteilung ähneln. Bei neuartigen Problemen, die komplexes logisches Schlussfolgern erfordern, haben sie jedoch oft Schwierigkeiten", erklärt das Team. "Wir haben untersucht, wie effektiv Test-Time Training als Mechanismus ist, um die Reasoning-Fähigkeiten der Modelle zu verbessern."
Dazu führten die Wissenschaftler systematische Experimente mit dem Abstraction and Reasoning Corpus (ARC) durch - einem anspruchsvollen Benchmark, der aus visuellen Logikrätseln besteht, die mit wenigen Beispielen gelöst werden müssen. ARC ist auch der zentrale Benchmark des ARC-Prize, ein mit einer Million Dollar dotierter Wettbewerb, der von François Chollet und Mike Knoop ins Leben gerufen wurde. Das Ziel ist die Entwicklung einer KI, die sich an neue Situationen anpassen und einfache Denkaufgaben lösen kann. Der Wettbewerb soll die KI-Forschung wieder zur Entwicklung einer allgemeinen künstlichen Intelligenz (AGI) führen.
TTT erreicht neuen Spitzenwert
Das Team identifiziert drei entscheidende Komponenten, die für den Erfolg von TTT nötig sind:
- Ein initiales Finetuning der Modelle auf ähnlichen Aufgaben wie denen, die später bewältigt werden sollen.
- Ein geeignetes Format für die Hilfstasks, die während des Test-Time Trainings verwendet werden, inklusive Augmentierung der Daten durch Transformationen.
- Ein separates Training der Modellparameter für jede einzelne Probleminstanz anstatt eines gemeinsamen Modells für alle Aufgaben.
Mit diesem Ansatz gelang es den Forschenden, die Genauigkeit eines Sprachmodells mit 8 Milliarden Parametern auf den ARC-Aufgaben um bis zu Faktor 6 gegenüber einem normal finegetunten Modell zu steigern. Auf dem öffentlichen ARC-Validierungsdatensatz erreichten sie damit eine Lösungsrate von 53 Prozent. Das ist der bisher höchste veröffentlichte Wert für ein rein neuronales System ohne zusätzliche symbolische Komponenten.
"Durch die Kombination unseres TTT-optimierten neuronalen Netzes mit bestehenden Ansätzen zur Programmsynthese konnten wir die Genauigkeit sogar auf 61,9 Prozent steigern", berichtet das Team. Das liege nahe am menschlichen Durchschnitt bei diesen komplexen logischen Aufgaben. Das Ziel der ARC-Challenge für den mit 600.000 US-Dollar dotierten Hauptpreis liegt bei 85 Prozent.
Laut den Forschenden ist besonders bemerkenswert, dass ihr rein neuronaler Ansatz mit Test-Time Training auch Probleme lösen kann, die bisher nur mit expliziter symbolischer Logik als lösbar galten. "Unsere Ergebnisse deuten darauf hin, dass eine aufwändige symbolische Suche nicht der einzige Weg ist, um die Fähigkeiten neuronaler Sprachmodelle zum abstrakten logischen Schlussfolgern zu verbessern", schreibt das Team. "Stattdessen kann auch ein rechenintensives Training auf wenigen Beispielen zur Laufzeit sehr effektiv sein."
TTT setzt auf LoRA
Das Test-Time Training funktioniert im Prinzip mit jedem bestehenden Sprachmodell. Dabei werden sogenannte "Low-Rank-Adapter" (LoRA) verwendet, um die Modellparameter in einem kompakten Format zu trainieren. So skaliert der Rechenaufwand nur moderat mit der Modellgröße. Solche LoRAs sind insbesondere für Erweiterungen von Bildmodellen weit verbreitet.
Für die Datenaugmentierung während des TTT entwickelten die Forschenden ein zweistufiges Verfahren: Zunächst werden aus den Trainingsbeispielen jeder Aufgabe sogenannte "Leave-One-Out-Tasks" erzeugt. Dabei wird immer ein Beispiel als Testfall behandelt und die restlichen als zugehörige Trainingsdaten. Diese Tasks werden dann durch regelbasierte Transformationen wie Rotation und Spiegelung vervielfacht, um die Trainingsdaten für das Test-Time Training zu bilden.
Bei der Inferenz wenden die Wissenschaftler die gelernten Modelle dann nicht nur auf die ursprünglichen Aufgaben an, sondern auch auf transformierte Varianten. Die Ergebnisse werden anschließend durch ein hierarchisches Majority-Voting-Verfahren zu einer finalen Antwort kombiniert. Dieses "augmentierte Inferenz" genannte Vorgehen verbessert die Robustheit und Genauigkeit zusätzlich.
Die MIT-Wissenschaftler sehen in ihren Ergebnissen einen wichtigen Schritt hin zu flexibleren und leistungsfähigeren KI-Systemen. TTT eröffne neue Möglichkeiten, die Reasoning-Fähigkeiten von KI auszubauen und so komplexere Probleme zu lösen.