Forscher der Universität Kopenhagen haben in einer neuen Studie untersucht, ob Sprachmodelle aus reinen Spielzugsequenzen die zugrunde liegenden Regeln und das Spielbrett des Strategiespiels Othello ableiten können.
Die Othello-Weltmodell-Hypothese besagt, dass Sprachmodelle, die nur auf Sequenzen von Spielzügen trainiert werden, ein relevantes Weltmodell des Spiels lernen können - einschließlich des Spielbrett-Layouts und der Spielmechaniken.
Die Modelle sollen also ohne explizite Erklärung der Regeln oder Visualisierung des Bretts verstehen, wie das Spiel funktioniert und so etwa die interne Repräsentation des Spielbretts für die Vorhersage weiterer Spielzüge nutzen können.
Die Idee von generativer KI als Weltmodell ist spätestens seit OpenAIs Sora und der "Sackgassen"-Kritik von Metas Chef-KI-Wissenschaftler Yann LeCun in einer fachlich interessierten Öffentlichkeit angekommen. Doch die zugrundeliegenden Ideen sind älter und wurden beispielsweise in den ersten Arbeiten zur Repräsentation von Othello in einem GPT-2-Modell experimentell getestet.
Obwohl die damalige Arbeit aufgrund ihrer Methode zur Analyse der internen Repräsentationen nicht perfekt war, zeigte sie doch deutliche Hinweise darauf, dass autoregressive Transformer-Netzwerke aus simplen Daten Modelle lernen können, die diese Daten erklären.
Diese Erkenntnis lieferte ein Gegenargument zur damals aktiv geführten Debatte, große Sprachmodelle seien bloß stochastische Papageien, auch wenn sich die Ergebnisse natürlich nicht eins zu eins auf die deutlich größeren Modelle übertragen ließen und nicht jeden Punkt der Papageien-Hypothese betreffen.
Dennoch: Sollte die Othello-Weltmodell-Hypothese zutreffen, würde das bedeuten, dass Sprachmodelle ein tieferes Verständnis von Zusammenhängen haben könnten, als Kritiker oft annehmen.
Modelle lernen räumliche Strukturen
Die neue Arbeit baut auf vorherigen Untersuchungen auf, trainiert aber sieben verschiedene Sprachmodelle - GPT-2, T5, Bart, Flan-T5, Mistral, LLaMA-2 und Qwen2.5 - darauf, den nächsten Zug in Othello-Partien vorherzusagen. Dabei verwendeten sie zwei Datensätze: einen mit etwa 140.000 echten Othello-Spielen und einen weiteren mit Millionen synthetischer Spiele.
Anders als frühere Untersuchungen setzt das Team Representation Alignment Tools ein, eine spezielle Technik, mit der die Forscher die internen "Landkarten" des Spielbretts von den verschiedenen KI-Modellen vergleichen können. Diese Tools hätten weniger Einschränkungen als die Methoden, die frühere Untersuchungen wie die zu OthelloGPT genutzt hätten.
Die Ergebnisse zeigen laut dem Team deutlich, dass die Sprachmodelle Othello spielen lernen und zugleich die räumliche Struktur des Spielbretts intern repräsentieren. Die Ähnlichkeit der von verschiedenen Modellen gelernten Brett-Features sei "überraschend hoch", so die Forscher.
In der detaillierten Auswertung zeigten sich Unterschiede zwischen den Modellen und Datensatzgrößen. Bei den echten Daten erreichten die meisten Modelle mit dem vollständigen Datensatz Fehlerraten unter sechs Prozent. Bei den synthetischen Daten verbesserte sich die Leistung mit zunehmender Datenmenge deutlich - von Fehlerraten um 50 Prozent bei 2.000 Spielen auf unter 0,1 Prozent beim vollständigen Datensatz.
Interessanterweise schnitten Modelle, die zuvor auf normalen Texten trainiert wurden (wie Flan-T5 oder LLaMA-2), beim Othello-Training nicht durchweg besser ab als Modelle ohne dieses Vortraining. Das deute darauf hin, dass die Fähigkeit, aus Spielzugsequenzen ein Weltmodell des Othello-Bretts zu entwickeln, nicht von vorherigem Sprachwissen abhängt.
Bedeutung für die KI-Forschung
Die Studie widerlegt laut den Autoren eine zentrale Annahme der LLM-Kritiker: Monomodale Modelle - also Systeme, die nur mit einer Art von Daten (hier Text) trainiert wurden - könnten keine Aufgaben lösen, die eigentlich visuelle Informationen erfordern. Das Othello-Brett ist schließlich ein visuelles, räumliches Konzept. Dass die Sprachmodelle es trotzdem aus reinen Textsequenzen rekonstruieren können, zeige ihre bemerkenswerte Abstraktionsfähigkeit.
Die Ergebnisse berühren auch das fundamentale Symbol-Grounding-Problem der KI-Forschung. Dieses Problem beschreibt die Herausforderung, wie abstrakte Symbole - etwa die Bezeichnung "C3" für ein Spielfeld - mit ihrer tatsächlichen Bedeutung verknüpft werden können. Die Studie zeigt, dass Sprachmodelle diese Verknüpfung selbstständig herstellen können: Sie lernen, dass "C3" eine spezifische Position auf dem Brett mit bestimmten räumlichen Beziehungen zu anderen Feldern bezeichnet statt nur eines generischen Symbosl.
Die auf der ICLR 2025 veröffentlichte Arbeit von Yifei Yuan und Anders Søgaard liefert laut den Autoren deutlich stärkere Belege für die sogenannte Othello-Weltmodell-Hypothese als frühere Untersuchungen.