Mit Genie 3 stellt Google Deepmind ein KI-Modell vor, das interaktive 3D-Umgebungen erzeugt – ein Werkzeug für die Simulation komplexer Szenarien und das Training autonomer KI-Agenten.
Google Deepmind hat mit Genie 3 ein sogenanntes "World Model" vorgestellt, das aus einfachen Texteingaben dynamische und interaktive Umgebungen erzeugt. Die generierten Welten lassen sich in Echtzeit erkunden – mit 24 Bildern pro Sekunde bei einer Auflösung von 720p. Die Umgebung bleibt dabei für mehrere Minuten konsistent. Im Vergleich zu bisherigen Modellen stellt das einen erheblichen technischen Fortschritt dar.

Laut Deepmind ist Genie 3 das erste Modell seiner Art, das Echtzeitinteraktivität mit physikalischer Konsistenz über längere Zeiträume kombiniert. Es soll als Grundlage für die Entwicklung allgemeiner KI-Systeme (AGI) dienen.
Die Entwicklung von Weltmodellen ist Teil einer langjährigen Forschungsstrategie bei Deepmind, die bereits die Vorgängermodelle Genie 1 und Genie 2 sowie die Videogeneratoren Veo 2 und Veo 3 hervorbrachte.
Simulation physikalischer und fiktionaler Welten
Genie 3 generiert verschiedenste Szenarien: von realitätsnahen Landschaften mit Lava, Wind und Regen bis zu fantastischen Welten mit Portalen, fliegenden Inseln oder animierten Wesen. Auch historische Orte wie Venedig oder das antike Knossos können rekonstruiert werden.
Über sogenannte "promptable world events" können Nutzer per Texteingabe gezielt in das Geschehen eingreifen, etwa durch Wetterwechsel oder das Erscheinen neuer Objekte. Die Interaktion geht damit über reine Navigation hinaus und erweitert die Ausdrucksmöglichkeiten innerhalb der Simulation sowie die Möglichkeit, kontrafaktische "Was wäre wenn"-Szenarien zu erstellen. Dadurch können KI-Agenten lernen, auch auf unerwartete Ereignisse zu reagieren.
Im Unterschied zu klassischen Videomodellen erzeugt Genie 3 jede Bildsequenz autoregressiv auf Basis der vorherigen Frames. Das Modell speichert Umgebungsdetails bis zu einer Minute zurück, was die visuelle Kohärenz über längere Zeiträume ermöglicht.
Trainingsumgebung für autonome Agenten
Anders als Verfahren wie NeRF oder Gaussian Splatting benötigt Genie 3 dafür keine expliziten 3D-Daten vorab, sondern generiert die Welt direkt aus dem Zusammenspiel von Textbeschreibung und Interaktion. Die Konsistenz ist also emergent, ergibt sich aus der Welt an sich.
Laut Deepmind ermöglicht das ein realistischeres Training von KI-Agenten in offenen, dynamischen Szenarien, ohne dass alle physikalischen Regeln explizit vorgegeben werden müssen. Das macht Genie 3 interessant für Deepminds Strategie, sogenannte Foundation World Models zu entwickeln.

Deepmind testet Genie 3 mit dem hauseigenen SIMA-Agenten, der in den generierten Welten eigenständig Aufgaben verfolgt. Die Simulation kennt das Ziel des Agenten nicht, sondern reagiert ausschließlich auf dessen Handlungen.
Dadurch können komplexe Aufgabenketten umgesetzt werden, was laut Google Deepmind ein wichtiger Schritt ist hin zu KI-Systemen, die durch eigene Erfahrung lernen. Neben dem reinen Training ermöglicht das System auch, die Leistung von Agenten gezielt zu bewerten und ihre Schwachstellen in simulierten Umgebungen aufzudecken.
Eingeschränkter Zugang zum Start
Genie 3 wird zunächst im Rahmen einer "limited research preview" veröffentlicht. Der Zugang ist auf eine kleine Gruppe von Forschenden und Kreativen beschränkt, um Risiken frühzeitig zu identifizieren und das System weiterzuentwickeln. Langfristig sieht Deepmind Anwendungsfelder in Bildung, Simulation und Expertentraining, etwa zur Vorbereitung auf komplexe Entscheidungssituationen.
Technisch bestehen derzeit noch Einschränkungen: Der Aktionsraum der Agenten ist begrenzt, die Interaktionsdauer auf wenige Minuten beschränkt. Mehragenten-Simulationen sind bislang nicht zuverlässig umsetzbar. Auch die Darstellung realer Orte erfolgt nicht georeferenziert, und lesbarer Text erscheint nur bei expliziter Vorgabe im Prompt.
Weltmodelle sollen KI-Agenten weiterentwickeln
Deepmind-CEO Demis Hassabis sieht in Weltmodellen wie Genie 3 oder dem Videomodell Veo 3 zentrale Bausteine auf dem Weg zur allgemeinen künstlichen Intelligenz. Diese Systeme erfassen laut Hassabis nicht nur visuelle Inhalte, sondern zunehmend auch die physikalischen Strukturen der Realität.
Der Aufbau solcher Weltmodelle gehört laut Hassabis zur Gründungsvision von Deepmind. Eine jüngst veröffentlichte Analyse der Deepmind-Forscher Richard Sutton und David Silver fordert zudem einen grundlegenden Wandel in der KI-Forschung: Weg von der Nutzung menschlicher Daten, hin zu KI-Systemen, die durch eigene Erfahrungen in simulierten Welten lernen.
Weltmodelle wie Genie 3 könnten dabei eine Schlüsselrolle spielen. Deepmind schreibt: "Wir erwarten, dass diese Technologie eine entscheidende Rolle auf dem Weg zur allgemeinen künstlichen Intelligenz (AGI) spielen wird – insbesondere wenn KI-Agenten zunehmend aktiv in der Welt agieren."
"Game Engine 2.0": Neue Perspektiven für die Spieleentwicklung
Demo-Videos von Genie 3 erinnern in ihrer Ästhetik bereits an frühe Versionen von Videospielen, auch wenn sie bisher nicht die Komplexität oder Systemtiefe kommerzieller Titel erreichen. Dennoch stellt sich die Frage, wie sich Weltmodelle wie Genie 3 langfristig auf die Entwicklung digitaler Spiele auswirken könnten.
NVIDIA-Direktor Jim Fan sieht in Genie 3 einen Vorboten dessen, was er "Game Engine 2.0" nennt. Künftige Spielwelten könnten seiner Einschätzung nach vollständig durch datengetriebene neuronale Netzwerke erzeugt werden – ohne klassische Werkzeuge wie 3D-Assets, Szenengraphen oder Shader-Programmierung. "Eines Tages wird die gesamte Komplexität der Unreal Engine in einem datenbasierten Gewichtsblob stecken, der Gamepad-Befehle entgegennimmt und direkt eine spacetime-Animation ausgibt", schreibt Fan.
Die Spieleentwicklung werde sich laut Fan zunehmend in Richtung Prompt Engineering und agentenbasierter Workflows bewegen – ähnlich wie bei der Nutzung großer Sprachmodelle. "Das wird das Endspiel sein – Wortspiel beabsichtigt", so Fan.
Update: Perspektive von Jim Fan auf Game Engines ergänzt.