Inhalt
summary Zusammenfassung

Forschende haben einen überraschenden Weg entdeckt, wie multimodale KI-Modelle komplexe mathematische Probleme lösen können: durch das Spielen einfacher Arcade-Games statt durch Training mit mathematischen Daten.

Anzeige

Normalerweise werden Modelle mit großen Mengen domänenspezifischer Daten gefüttert, um Expertise in einem bestimmten Bereich zu entwickeln. Ein neues Paper von Wissenschaftler:innen der Rice University, Johns Hopkins University und Nvidia haben jedoch einen spielerischen Ansatz gefunden, der dieser gängigen Praxis im KI-Training widerspricht. Das Forschungsteam nennt ihr Konzept "Visual Game Learning" (ViGaL) und nutzt Qwen2.5-VL-7B als Basis.

Spiele fördern übertragbare Fähigkeiten

Der Ansatz basiert laut den Forschenden auf Erkenntnissen der Kognitionswissenschaft, die zeigen, dass Spiele übertragbare kognitive Fähigkeiten fördern. Für ihre Studie entwickelten die Wissenschaftler:innen zwei verschiedene Spielumgebungen angelehnt an Snake und Tetris, die jeweils unterschiedliche Aspekte des Denkens trainieren sollten.

Das Snake-Spiel wurde auf einem 10x10-Gitter implementiert, bei dem zwei Schlangen um Äpfel konkurrieren. Das Tetris-ähnliche Rotationsspiel präsentierte dem Modell 3D-Objekte in ursprünglicher und um 90 oder 180 Grad rotierter Ansicht.

Anzeige
Anzeige

Die Forschenden generierten dafür je 36.000 Trainingsbeispiele mit kontrollierbaren Schwierigkeitsgraden und verwendeten Hunyuan3D für die 3D-Objektgenerierung. Snake verbesserte die Leistung bei 2D-Koordinaten- und Ausdrucksproblemen, während Rotation die Winkel- und Längenberechnung stärkte.

Diagramm: MLLM trainiert per RL in Snake (Pfadplanung, Hindernisvermeidung) und Rotation (Winkelabschätzung).
Das multimodale Sprachmodell beobachtet das Snake-Spielfeld, reflektiert über mögliche Züge zur Pfadplanung und Hindernisvermeidung und wählt belohnende Aktionen; im Rotationsspiel schätzt sie anhand von Vorlagen Drehwinkel und trainiert so multimodales Reasoning. | Bild: Xie et al.

Snake-Training statt Mathe-Daten

Das kombinierte Training auf Snake- und Rotationsproblemen brachte das Basismodell im Vergleich zu MM-Eureka-Qwen-7B, das explizit auf mathematischen Datensätzen trainiert wurde, mit 50,6 Prozent gegenüber 50,1 Prozent in mathematischen Benchmarks auf ein leicht höheres Niveau.

Bei geometrischen Problemen verdoppelte sich die Leistung hingegen. Das liegt mit daran, dass MM-Eureka bei einem der Geometrie-Benchmarks (Geo3K) auffällig schlecht wegkommt. Im Vergleich zu anderen Spezial-Modellen ist der Abstand kleiner, aber ebenfalls vorhanden.

Tabelle: Ergebnisse multimodaler KI-Modelle auf fünf Mathematik-Benchmarks; ViGaL-1 erreicht höchste Durchschnittswertungen.
Die Tabelle vergleicht die Benchmarkleistung großer proprietärer, kleiner multimodaler sowie explizit auf Basis von Qwen-2.5-VL-7B nachtrainierter Modelle. | Bild: Xie et al.

Auch gegenüber proprietären Systemen schnitt ViGaL gut ab: Es erreichte 53,9 Prozent durchschnittliche Genauigkeit über alle Benchmarks hinweg und lag damit über GPT-4o (47,5 Prozent), aber knapp unter Gemini 2.0 Flash (55,4 Prozent).

Bei komplexeren, mathematischen Aufgaben schlug das kleine nachtrainierte Modell mit durchschnittlichen 64,7 Prozent das wesentlich größere GPT-4o (55,9 Prozent) noch deutlicher. Bei allgemeiner angelegten Tests lag das ViGaL-Modell jedoch knapp unter dem Basismodell und einige Prozentpunkte hinter GPT-4o.

Empfehlung
Out-of-distribution-Spiele (Breakout, Ms. Pacman) vs. Out-of-domain-Aufgaben (Mathe, Geometrie, CLEVR+, Multidisziplinen).
Nach dem Spieltraining wurde das Modell in Atari-Titeln wie Breakout und Ms. Pacman geprüft und anschließend auf sehr unterschiedliche Denkaufgaben angewendet – von Mathematik und Geometrie über 3D-Szenenanalyse bis zu fachübergreifenden Expert:innenfragen aus Kunst, Wirtschaft und Medizin. | Bild: Xie et al.

Abschließend prüften die Forschenden die Fähigkeiten von ViGaL auf Atari-Spielen, die sich erheblich von den Trainingsspielen unterscheiden. Hier erreichte ViGaL fast doppelt so hohe Punktzahlen wie das Basismodell.

Verstärkungslernen deutlich besser als Finetuning

Spezielle Anweisungen zum schrittweisen Denken erwiesen sich als entscheidend: Mathematische Denkanleitungen wie "finde den nächsten Apfel durch Berechnung von Manhattan-Distanzen" für Snake und räumliche Anweisungen wie "identifiziere wichtige Symmetrieachsen" für Rotation verbesserten die Leistung um 1,9 Prozentpunkte.

Ein weiterer Schlüsselaspekt war das Design der Belohnungsfunktion: Das Modell musste sowohl den besten als auch den schlechtesten Zug identifizieren. Diese kontrastive Entscheidungsfindung brachte weitere 1,8 Prozentpunkte Verbesserung. Die Kontrolle der Spielschwierigkeit - bei Snake über die Schlangenlänge zwischen 1 und 5 Segmenten - stabilisierte das Training zusätzlich.

Insgesamt steigerte Belohnungslernen die Leistung um 12,3 Prozent, während überwachtes Training (Supervised Finetuning) mit denselben Daten sie um 1,9 Prozent verschlechterte. Die Forschenden zeigten auch, dass sich der Ansatz begrenzt skalieren lässt: Eine Verdopplung der Trainingsdaten verbesserte die Ergebnisse um weitere 1,3 Prozentpunkte.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Neues Paradigma für KI-Training?

Die Ergebnisse deuten laut den Forschenden auf ein neues Training-Paradigma hin: Statt teure, von Menschen annotierte Datensätze zu benötigen, könnten synthetische Spiele als skalierbare Trainingsaufgaben dienen, die generalisierbare Denkfähigkeiten freisetzen. Zukünftige Arbeiten könnten eine breitere Palette von spielbasierten Lernansätzen für robuste KI erkunden.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende haben herausgefunden, dass multimodale KI-Modelle durch das Lösen einfacher Arcade-Games wie Snake und Tetris komplexe mathematische Aufgaben bewältigen können, ohne mit mathematischen Daten trainiert worden zu sein.
  • Das sogenannte "Visual Game Learning" verbesserte insbesondere die Leistung bei geometrischen und mathematischen Benchmarks: Das kleine, spielbasiert trainierte Modell erreichte in einigen Fällen höhere Genauigkeit als größere Modelle wie GPT-4o und schnitt bei Atari-Spielen fast doppelt so gut ab wie das Basismodell.
  • Belohnungslernen mit gezielten Anweisungen und kontrastiven Entscheidungen steigerte die Ergebnisse deutlich stärker als klassisches Finetuning; die Forschenden sehen darin die Möglichkeit, synthetische Spiele künftig als skalierbare Trainingsaufgaben für KI zu nutzen.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!