Laut Google-Deepmind-CEO Demis Hassabis stellen KI-Weltmodelle einen entscheidenden Schritt auf dem Weg zur allgemeinen künstlichen Intelligenz dar. Die Systeme würden zunehmend die zugrunde liegende Struktur der physischen Welt erfassen.
Auf X hebt Hassabis hervor, wie leistungsfähig aktuelle Videomodelle wie Veo 3 darin seien, physikalische Gesetzmäßigkeiten zu erfassen: "Es ist gewissermaßen überwältigend, wie gut Veo 3 intuitive Physik modelliert", schreibt Hassabis.
Der Deepmind-CEO sieht darin nicht nur Fortschritte bei der Videogenerierung, sondern Hinweise auf grundlegendere Fähigkeiten: Diese Weltmodelle hätten seiner Ansicht nach wichtige Implikationen für das Verständnis der rechnerischen Komplexität der Welt und somit für das tiefergehende Verständnis der Realität.
Hassabis zufolge gibt es keinen Zweifel daran, dass diese KI-Modelle – genau wie das menschliche Gehirn – über die bloße Konstruktion von Realität hinausgehen und die tatsächliche Struktur der physischen Welt "da draußen" erfassen. Diese Fähigkeit habe auch das menschliche Gehirn im Laufe der Evolution entwickelt. Hassabis beschreibt genau dieses Ziel, das Verständnis der grundlegenden Natur der Wirklichkeit, als seine "ultimative Suche".
Weltmodelle als Gründungsidee und Deepmind-Strategie
Für Hassabis ist der Aufbau von Weltmodellen kein neues Ziel. "Der Aufbau von Weltmodellen war immer der Plan von GDM (Google Deepmind), um zu AGI zu gelangen", schreibt er – ein Plan, der laut ihm bis in seine Jugend zurückreicht. Bereits mit 17 Jahren begann er, KI für Simulationsspiele wie "Theme Park" zu entwickeln, um Modelle zu erschaffen, die virtuelle Welten möglichst realitätsnah abbilden.
Diese frühen Erfahrungen flossen später in die Gründungsvision von Deepmind ein: KI-Systeme zu entwickeln, die nicht nur Sprache imitieren, sondern die reale Welt modellieren und in ihr handeln können. Deepmind verfolgt dieses Ziel auch in Projekten wie dem Videospielwelten-Generator Genie, der aus einzelnen Bildern interaktive 3D-Umgebungen erzeugt.
KI soll aus Erfahrungen lernen
Vor kurzem plädierten Richard Sutton und David Silver – beide führende Forscher bei Google Deepmind – in einem neuen Aufsatz für einen grundlegenden Paradigmenwechsel in der KI-Forschung. Statt KI-Systeme auf Basis menschlicher Daten zu trainieren, fordern sie Agenten, die durch eigene Erfahrungen lernen. Der Mensch neige dazu, seine Intuition in Algorithmen zu gießen, doch langfristig setze sich datengetriebenes Lernen durch, so die Autoren.
Zentrale Idee ist die Nutzung von Weltmodellen: interne Simulationen, mit denen KI-Agenten die Konsequenzen ihrer Handlungen vorhersagen können. Diese Modelle sollen nicht nur Sprache, sondern auch sensorische und motorische Erfahrungen verarbeiten – etwa durch Reinforcement Learning in realitätsnahen Umgebungen. KI-Systeme sollen sich wie Tiere oder Menschen langfristig an ihre Umwelt anpassen, statt bloß menschliches Wissen zu imitieren.
Sutton und Silver sehen darin, ähnlich wie Hassabis, den Beginn einer neuen Ära der künstlichen Intelligenz – einer Ära, in der Erfahrung nicht Beiwerk, sondern Grundlage ist. Weltmodelle sind die Schlüsseltechnologie für diesen Übergang.