Inhalt
summary Zusammenfassung

Google verbindet Sprachmodelle mit einem Physik-Simulator und zeigt, dass das hybride KI-System neue Bestwerte in Benchmarks zum physikalischen Schlussfolgern knackt.

Anzeige

Große Sprachmodelle wie OpenAIs GPT-3 oder Googles PaLM können nicht zuverlässig logisch schlussfolgern. Das ist ein zentraler Fakt in der Debatte um die Rolle von Deep Learning auf dem Weg zu höherer Künstlicher Intelligenz.

Methoden wie Chain-of-Thought-Prompting oder mehr Trainingsdaten und größere Modelle wie PaLM führten zwar zu besseren Ergebnissen in Benchmarks, aber nicht zu einem grundlegenden Durchbruch.

Forschende experimentieren daher mit hybriden Ansätzen, in denen die Sprachfähigkeiten der KI-Modelle genutzt werden, um Anfragen an spezialisierte, externe Bibliotheken oder Systeme zu stellen.

Anzeige
Anzeige

OpenAIs WebGPT war etwa ein frühes Beispiel. Jüngst verknüpfte KI-Forscher Sergey Karayev GPT-3 mit einem Python-Interpreter, der exakte mathematische Berechnungen ermöglicht oder API-Anfragen stellen kann.

Google verknüpft PaLM mit MuJoCo-Simulator

Forschenden von Google gehen jetzt einen Schritt weiter und verbinden große Sprachmodelle mit einem Physik-Simulator. Da aktuelle Sprachmodelle ausschließlich mit geschriebenem Text trainiert würden, fehle ihnen die fundierte Erfahrung des Menschen in der realen Welt, schreibt das Team.

Das dadurch entstehende Unvermögen, die Sprache mit der physikalischen Welt in Beziehung zu setzen, führe dazu, dass Wissen falsch repräsentiert werde, was wiederum zu offensichtlichen Fehlern in Schlussfolgerungen führe.

Der Benchmark UTOPIA umfasst Fragen für Sprachmodelle, deren Beantwortung laut Google physikalisches Schlussfolgern benötigt. | Bild: Google

Um Sprachmodelle in der physikalischen Welt zu verankern, schlagen die Forschenden vor, Anfragen an das Sprachmodell in der Physiksimulation MuJoCo zu simulieren und mögliche Ergebnisse anschließend als Teil des Inputs für das Sprachmodell zu verwenden. Das Team nennt dieses Paradigma "Mind's Eye" und testet es am dafür erstellten UTOPIA-Benchmark für physikalisches Schlussfolgern.

Googles Mind's Eye verwandelt Text zu Code zu Simulation

Mind's Eye besteht aus drei Modulen: Das Sprachmodell übergibt Fragen, deren Beantwortung physikalische Schlussfolgerungen benötigen, an ein Text-zu-Code-Sprachmodell weiter, das mit 200.000 Text-Code-Paaren im Stil des UTOPIA-Benchmarks trainiert wurde.

Empfehlung

Der generierte Code wird an MuJoCo weitergegeben, wo er ausgeführt und das Ergebnis anschließend in Text umgewandelt wird. Abschließend wird der Text in das Eingabefenster des Sprachmodells übertragen und dient als Input für die finale Antwort des Modells.

Google setzt auf Deepminds MuJoCo-Simulator für eine physikalische Erdung von Sprachmodellen. | Bild: Google

Mit dieser Methode gelingen den Google-Forschenden massive Leistungssprünge: Googles PaLM 540B erreicht mit Mind's Eye 92,5 Prozent statt 39,4 Prozent in UTOPIA, OpenAIs InstructGPT 99,1 Prozent statt 68,6 Prozent. Im Schnitt steigt die Genauigkeit der getesteten Sprachmodelle um 27,9 bei Zero-Shot- und 46 Prozent im Few-Shot-Szenario.

Mind's Eye führt zu deutlich besseren Ergebnissen im UTOPIA-Benchmark als andere Methoden. | Bild: Google

Googles Mind's Eye erweitert die Möglichkeiten von Sprachmodellen

Neben der Skalierbarkeit des Ansatzes und der durch die Simulation fundierten Schlussfolgerung sei Mind's Eye zudem sehr effizient: Da die Methode domänenspezifisches Wissen an externe Expertenmodule delegiere (in diesem Fall MuJoCo), sei dieses Wissen von Schlussfolgerungsfähigkeiten entkoppelt.

Die Größe des benötigten Sprachmodells könne so erheblich verringert werden, da das Netz kein domänenspezifisches Wissen auswendig lernen müsse. In der Praxis kann das Team zeigen, dass kleinere Modelle mit Mind's Eye im UTOPIA-Benchmark die Leistung von 100-mal größeren Modellen erreichen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Wir kommen zu dem Schluss, dass Mind's Eye nicht nur effektiv und skalierbar, sondern auch effizient ist, da es die Argumentationsleistung kleiner LMs erheblich steigern kann, ohne dass weder handgefertigte Eingabeaufforderungen noch kostspielige Feinabstimmung.

Mind's Eye Paper

Das Team glaubt, dass die Idee, für Schlussfolgerungen auf eine Simulations-Pipeline zu setzen, sich leicht auf andere Domänen ausbreiten lässt - besonders dort, wo bereits Simulationen existieren. Anstelle der physikalischen Welt könnten etwa Simulationen wirtschaftlicher Veränderungen oder der Thermodynamik verwendet werden.

"Die dynamische Natur von Mind's Eye, bei der wir fundierte Erkenntnisse generieren, erschließt das Skalierungspotenzial dieser Modelle", heißt es in der Veröffentlichung.

Mit anderen Worten: Das Potenzial großer KI-Modelle ist noch nicht ausgeschöpft und Techniken wie Mind's Eye können neue Fähigkeiten erschließen, ohne dass dafür fundamental neue KI-Technologien benötigt werden.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google verknüpft in einer neuen Arbeit Sprachmodelle mit der Physik-Simulation MuJoCo.
  • Anfragen an das Sprachmodell werden von einem Text-zu-Code-Modell in Code verwandelt, der in MuJoCo ausgeführt wird. Die Ergebnisse werden in Text-Form für die Antworten des Sprachmodells genutzt.
  • Das Forschungs-Team tauft den Ansatz Mind's Eye und zeigt, dass GPT-3, PaLM und andere Modelle so deutlich zuverlässiger auf Fragen antworten, die physikalische Schlussfolgerungen benötigen.
  • Google erstellt dafür den neuen Benchmark UTOPIA.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!