Mind's Eye: Wie Physik-Daten große Sprachmodelle verbessern

Google verbindet Sprachmodelle mit einem Physik-Simulator und zeigt, dass das hybride KI-System neue Bestwerte in Benchmarks zum physikalischen Schlussfolgern knackt.

Große Sprachmodelle wie OpenAIs GPT-3 oder Googles PaLM können nicht zuverlässig logisch schlussfolgern. Das ist ein zentraler Fakt in der Debatte um die Rolle von Deep Learning auf dem Weg zu höherer Künstlicher Intelligenz.

Methoden wie Chain-of-Thought-Prompting oder mehr Trainingsdaten und größere Modelle wie PaLM führten zwar zu besseren Ergebnissen in Benchmarks, aber nicht zu einem grundlegenden Durchbruch.

Forschende experimentieren daher mit hybriden Ansätzen, in denen die Sprachfähigkeiten der KI-Modelle genutzt werden, um Anfragen an spezialisierte, externe Bibliotheken oder Systeme zu stellen.

OpenAIs WebGPT war etwa ein frühes Beispiel. Jüngst verknüpfte KI-Forscher Sergey Karayev GPT-3 mit einem Python-Interpreter, der exakte mathematische Berechnungen ermöglicht oder API-Anfragen stellen kann.

Google verknüpft PaLM mit MuJoCo-Simulator

Forschenden von Google gehen jetzt einen Schritt weiter und verbinden große Sprachmodelle mit einem Physik-Simulator. Da aktuelle Sprachmodelle ausschließlich mit geschriebenem Text trainiert würden, fehle ihnen die fundierte Erfahrung des Menschen in der realen Welt, schreibt das Team.

Das dadurch entstehende Unvermögen, die Sprache mit der physikalischen Welt in Beziehung zu setzen, führe dazu, dass Wissen falsch repräsentiert werde, was wiederum zu offensichtlichen Fehlern in Schlussfolgerungen führe.

Der Benchmark UTOPIA umfasst Fragen für Sprachmodelle, deren Beantwortung laut Google physikalisches Schlussfolgern benötigt. | Bild: Google

Um Sprachmodelle in der physikalischen Welt zu verankern, schlagen die Forschenden vor, Anfragen an das Sprachmodell in der Physiksimulation MuJoCo zu simulieren und mögliche Ergebnisse anschließend als Teil des Inputs für das Sprachmodell zu verwenden. Das Team nennt dieses Paradigma "Mind's Eye" und testet es am dafür erstellten UTOPIA-Benchmark für physikalisches Schlussfolgern.

Googles Mind's Eye verwandelt Text zu Code zu Simulation

Mind's Eye besteht aus drei Modulen: Das Sprachmodell übergibt Fragen, deren Beantwortung physikalische Schlussfolgerungen benötigen, an ein Text-zu-Code-Sprachmodell weiter, das mit 200.000 Text-Code-Paaren im Stil des UTOPIA-Benchmarks trainiert wurde.

Empfehlung

KI-Forschung

Metas KI-Chef nennt generative KI eine Sackgasse - und liefert mit V-JEPA 2 die Alternative

Der generierte Code wird an MuJoCo weitergegeben, wo er ausgeführt und das Ergebnis anschließend in Text umgewandelt wird. Abschließend wird der Text in das Eingabefenster des Sprachmodells übertragen und dient als Input für die finale Antwort des Modells.

Google setzt auf Deepminds MuJoCo-Simulator für eine physikalische Erdung von Sprachmodellen. | Bild: Google

Mit dieser Methode gelingen den Google-Forschenden massive Leistungssprünge: Googles PaLM 540B erreicht mit Mind's Eye 92,5 Prozent statt 39,4 Prozent in UTOPIA, OpenAIs InstructGPT 99,1 Prozent statt 68,6 Prozent. Im Schnitt steigt die Genauigkeit der getesteten Sprachmodelle um 27,9 bei Zero-Shot- und 46 Prozent im Few-Shot-Szenario.

Mind's Eye führt zu deutlich besseren Ergebnissen im UTOPIA-Benchmark als andere Methoden. | Bild: Google

Googles Mind's Eye erweitert die Möglichkeiten von Sprachmodellen

Neben der Skalierbarkeit des Ansatzes und der durch die Simulation fundierten Schlussfolgerung sei Mind's Eye zudem sehr effizient: Da die Methode domänenspezifisches Wissen an externe Expertenmodule delegiere (in diesem Fall MuJoCo), sei dieses Wissen von Schlussfolgerungsfähigkeiten entkoppelt.

Die Größe des benötigten Sprachmodells könne so erheblich verringert werden, da das Netz kein domänenspezifisches Wissen auswendig lernen müsse. In der Praxis kann das Team zeigen, dass kleinere Modelle mit Mind's Eye im UTOPIA-Benchmark die Leistung von 100-mal größeren Modellen erreichen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Wir kommen zu dem Schluss, dass Mind's Eye nicht nur effektiv und skalierbar, sondern auch effizient ist, da es die Argumentationsleistung kleiner LMs erheblich steigern kann, ohne dass weder handgefertigte Eingabeaufforderungen noch kostspielige Feinabstimmung.

Mind's Eye Paper

Das Team glaubt, dass die Idee, für Schlussfolgerungen auf eine Simulations-Pipeline zu setzen, sich leicht auf andere Domänen ausbreiten lässt - besonders dort, wo bereits Simulationen existieren. Anstelle der physikalischen Welt könnten etwa Simulationen wirtschaftlicher Veränderungen oder der Thermodynamik verwendet werden.

"Die dynamische Natur von Mind's Eye, bei der wir fundierte Erkenntnisse generieren, erschließt das Skalierungspotenzial dieser Modelle", heißt es in der Veröffentlichung.

Mit anderen Worten: Das Potenzial großer KI-Modelle ist noch nicht ausgeschöpft und Techniken wie Mind's Eye können neue Fähigkeiten erschließen, ohne dass dafür fundamental neue KI-Technologien benötigt werden.

Mind's Eye: Wie Physik-Daten große Sprachmodelle verbessern

Google verknüpft PaLM mit MuJoCo-Simulator

Googles Mind's Eye verwandelt Text zu Code zu Simulation

Metas KI-Chef nennt generative KI eine Sackgasse - und liefert mit V-JEPA 2 die Alternative

Googles Mind's Eye erweitert die Möglichkeiten von Sprachmodellen

Versteckte Fähigkeiten großer Sprachmodelle: Ist Emergenz die Norm?

Große KI-Modelle könnten bald viel schneller noch größer werden

Google untersucht emergente Fähigkeiten in großen KI-Modellen

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Mind's Eye: Wie Physik-Daten große Sprachmodelle verbessern

Google verknüpft PaLM mit MuJoCo-Simulator

Googles Mind's Eye verwandelt Text zu Code zu Simulation

Googles Mind's Eye erweitert die Möglichkeiten von Sprachmodellen

Artikel teilen

Bankverbindung