Inhalt
summary Zusammenfassung

Forscher steigern mit Test-Time Training (TTT) die Fähigkeit von KI-Sprachmodellen, logische Schlussfolgerungen zu ziehen und Probleme zu lösen, erheblich und stellen im anspruchsvollen ARC-Benchmark einen neuen Rekord auf.

Anzeige

Forschende am Massachusetts Institute of Technology (MIT) haben eine Methode entwickelt, mit der künstliche neuronale Netze ihre Fähigkeiten zum logischen Schlussfolgern und Problemlösen deutlich ausbauen können. Beim sogenannten "Test-Time Training" (TTT) werden die Parameter der Modelle während der Anwendung dynamisch an die aktuellen Eingabedaten angepasst.

"Sprachmodelle zeigen beeindruckende Leistungen bei Aufgaben, die ihrer Trainingsverteilung ähneln. Bei neuartigen Problemen, die komplexes logisches Schlussfolgern erfordern, haben sie jedoch oft Schwierigkeiten", erklärt das Team. "Wir haben untersucht, wie effektiv Test-Time Training als Mechanismus ist, um die Reasoning-Fähigkeiten der Modelle zu verbessern."

Dazu führten die Wissenschaftler systematische Experimente mit dem Abstraction and Reasoning Corpus (ARC) durch - einem anspruchsvollen Benchmark, der aus visuellen Logikrätseln besteht, die mit wenigen Beispielen gelöst werden müssen. ARC ist auch der zentrale Benchmark des ARC-Prize, ein mit einer Million Dollar dotierter Wettbewerb, der von François Chollet und Mike Knoop ins Leben gerufen wurde. Das Ziel ist die Entwicklung einer KI, die sich an neue Situationen anpassen und einfache Denkaufgaben lösen kann. Der Wettbewerb soll die KI-Forschung wieder zur Entwicklung einer allgemeinen künstlichen Intelligenz (AGI) führen.

Anzeige
Anzeige

TTT erreicht neuen Spitzenwert

Das Team identifiziert drei entscheidende Komponenten, die für den Erfolg von TTT nötig sind:

  1. Ein initiales Finetuning der Modelle auf ähnlichen Aufgaben wie denen, die später bewältigt werden sollen.
  2. Ein geeignetes Format für die Hilfstasks, die während des Test-Time Trainings verwendet werden, inklusive Augmentierung der Daten durch Transformationen.
  3. Ein separates Training der Modellparameter für jede einzelne Probleminstanz anstatt eines gemeinsamen Modells für alle Aufgaben.

Mit diesem Ansatz gelang es den Forschenden, die Genauigkeit eines Sprachmodells mit 8 Milliarden Parametern auf den ARC-Aufgaben um bis zu Faktor 6 gegenüber einem normal finegetunten Modell zu steigern. Auf dem öffentlichen ARC-Validierungsdatensatz erreichten sie damit eine Lösungsrate von 53 Prozent. Das ist der bisher höchste veröffentlichte Wert für ein rein neuronales System ohne zusätzliche symbolische Komponenten.

"Durch die Kombination unseres TTT-optimierten neuronalen Netzes mit bestehenden Ansätzen zur Programmsynthese konnten wir die Genauigkeit sogar auf 61,9 Prozent steigern", berichtet das Team. Das liege nahe am menschlichen Durchschnitt bei diesen komplexen logischen Aufgaben. Das Ziel der ARC-Challenge für den mit 600.000 US-Dollar dotierten Hauptpreis liegt bei 85 Prozent.

Laut den Forschenden ist besonders bemerkenswert, dass ihr rein neuronaler Ansatz mit Test-Time Training auch Probleme lösen kann, die bisher nur mit expliziter symbolischer Logik als lösbar galten. "Unsere Ergebnisse deuten darauf hin, dass eine aufwändige symbolische Suche nicht der einzige Weg ist, um die Fähigkeiten neuronaler Sprachmodelle zum abstrakten logischen Schlussfolgern zu verbessern", schreibt das Team. "Stattdessen kann auch ein rechenintensives Training auf wenigen Beispielen zur Laufzeit sehr effektiv sein."

TTT setzt auf LoRA

Das Test-Time Training funktioniert im Prinzip mit jedem bestehenden Sprachmodell. Dabei werden sogenannte "Low-Rank-Adapter" (LoRA) verwendet, um die Modellparameter in einem kompakten Format zu trainieren. So skaliert der Rechenaufwand nur moderat mit der Modellgröße. Solche LoRAs sind insbesondere für Erweiterungen von Bildmodellen weit verbreitet.

Empfehlung

Für die Datenaugmentierung während des TTT entwickelten die Forschenden ein zweistufiges Verfahren: Zunächst werden aus den Trainingsbeispielen jeder Aufgabe sogenannte "Leave-One-Out-Tasks" erzeugt. Dabei wird immer ein Beispiel als Testfall behandelt und die restlichen als zugehörige Trainingsdaten. Diese Tasks werden dann durch regelbasierte Transformationen wie Rotation und Spiegelung vervielfacht, um die Trainingsdaten für das Test-Time Training zu bilden.

Bei der Inferenz wenden die Wissenschaftler die gelernten Modelle dann nicht nur auf die ursprünglichen Aufgaben an, sondern auch auf transformierte Varianten. Die Ergebnisse werden anschließend durch ein hierarchisches Majority-Voting-Verfahren zu einer finalen Antwort kombiniert. Dieses "augmentierte Inferenz" genannte Vorgehen verbessert die Robustheit und Genauigkeit zusätzlich.

Die MIT-Wissenschaftler sehen in ihren Ergebnissen einen wichtigen Schritt hin zu flexibleren und leistungsfähigeren KI-Systemen. TTT eröffne neue Möglichkeiten, die Reasoning-Fähigkeiten von KI auszubauen und so komplexere Probleme zu lösen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher des MIT haben eine Methode namens "Test-Time Training" (TTT) entwickelt, die die Fähigkeit von KI-Sprachmodellen zum logischen Schlussfolgern verbessert. Bei diesem Verfahren werden die Parameter der Modelle während der Anwendung dynamisch an die aktuellen Eingabedaten angepasst.
  • In Tests mit dem Abstraction and Reasoning Corpus (ARC) steigerte das Team die Genauigkeit eines 8-Milliarden-Parameter-Modells um das Sechsfache. Auf dem öffentlichen ARC-Validierungsdatensatz erreichte das System eine Lösungsrate von 53 Prozent, der höchste bisher veröffentlichte Wert für ein rein neuronales System.
  • Das Verfahren basiert auf drei Komponenten: initialem Finetuning auf ähnlichen Aufgaben, speziell formatierten Hilfstasks mit Datentransformationen und separatem Training der Modellparameter für jede Probleminstanz. In Kombination mit Programmsynthese erreichte das System eine Genauigkeit von 61,9 Prozent.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!