Inhalt
summary Zusammenfassung

Mit dem KI-Modell WHAMM hat Microsoft ein System entwickelt, das Quake II rein generativ in Echtzeit simuliert. Das Projekt demonstriert, wie weit KI-generiertes Gameplay inzwischen ist – und wo die Grenzen liegen.

Anzeige

Mit WHAMM (World and Human Action MaskGIT Model) bringt Microsoft ein experimentelles KI-Modell in seine Copilot Labs, das das klassische Spiel Quake II in Echtzeit generieren und bespielbar machen soll. WHAMM steht für "World and Human Action MaskGIT Model" und ist eine Weiterentwicklung des zuvor veröffentlichten WHAM-1.6B-Modells.

Letzteres wurde auf dem Spiel Bleeding Edge trainiert, lieferte aber nur etwa ein Bild pro Sekunde. WHAMM erreicht über zehn Bilder pro Sekunde und ermöglicht damit erstmals eine interaktive Spielerfahrung direkt im generativen Modell. WHAMM und WHAM-1.6B sind beide Teil von "Muse", Microsofts Modellfamilie für generative KI in der Spieleentwicklung.

Echtzeit trotz drastisch reduzierter Datenmenge

Ein zentrales Merkmal von WHAMM ist die Reduktion der benötigten Trainingsdaten. Während WHAM-1.6B auf sieben Jahre Spielverlauf trainiert wurde, genügte für WHAMM eine Woche Spielzeit aus Quake II – gesammelt von professionellen Spieletestern auf einem einzigen Levelabschnitt. Diese gezielte und qualitativ hochwertige Datenerhebung ermöglichte es dem Modell, reale Spielsituationen effizient zu lernen.

Anzeige
Anzeige

Technisch unterscheidet sich WHAMM deutlich vom Vorgänger. Statt auf eine autoregressive Architektur zu setzen, bei der jedes Bildtoken einzeln generiert wird, verwendet WHAMM eine sogenannte MaskGIT-Strategie. Diese erlaubt die parallele Erzeugung aller Bildtokens in wenigen Durchläufen. Dadurch konnte die Generationsgeschwindigkeit massiv erhöht und die Bildauflösung verdoppelt werden. Statt 300 × 180 Pixeln wie beim Vorgängermodell liefert WHAMM 640 × 360 Pixel.

Diagramm: WHAMM-KI-System mit drei Phasen - Bildtokenisierung, Weltmodellierung und Bildverfeinerung durch Transformer-Netzwerke.
Die WHAMM-Architektur kombiniert Bildverarbeitung mit Aktionsvorhersage in drei Hauptkomponenten: Bildtokenisierung mittels ViT-VQGAN, kontextbasierte Vorhersage durch einen Backbone-Transformer und iterative Verfeinerung der Bildtoken-Prognosen durch einen Refinement-Transformer. | Bild: Microsoft

Das Modell besteht aus zwei Teilen: einem „Backbone“-Transformer mit rund 500 Millionen Parametern, der eine erste Bildvorhersage erzeugt, und einem kleineren „Refinement“-Modul mit 250 Millionen Parametern, das diese Vorhersage iterativ verbessert. Als Kontext dienen dabei die neun vorherigen Bild-Aktions-Paare.

Spielen im Modell – mit Einschränkungen

Die generierte Spielwelt, die man hier testen kann, erlaubt grundlegende Interaktionen wie Bewegung, Springen, Schießen oder das Platzieren von Objekten – inklusive persistenter Veränderungen im Level. Auch versteckte Bereiche des Quake-II-Levels können entdeckt werden.

Quake II in der KI-Version. | Video: Microsoft

Allerdings handelt es sich nicht um eine exakte Nachbildung des Originalspiels. WHAMM approximiert die Spielumgebung auf Basis der Trainingsdaten. Gegner erscheinen unscharf, Kämpfe verlaufen oft unplausibel, Gesundheitsanzeigen sind unzuverlässig und Objekte verschwinden, wenn sie länger als 0,9 Sekunden aus dem Blickfeld geraten – die maximale Kontextlänge des Modells limitiert hier. Der spielbare Bereich ist auf einen Levelausschnitt begrenzt. Wird das Levelende erreicht, friert die Simulation ein. Zudem ist die Latenz hoch, zwischen EIngabe und Akton gibt es eine deutlich spürbare Verzögerung.

Empfehlung

Microsoft positioniert WHAMM daher ausdrücklich als Forschungsexperiment. Ziel sei es, neue Formen interaktiver Medien zu erproben und Werkzeuge zu entwickeln, mit denen Spielentwickler KI zur Unterstützung kreativer Prozesse nutzen können. Die aktuelle Version zeige dabei sowohl die Potenziale als auch die Grenzen generativer Spielwelten auf.

Die KI-gestützte Spieleentwicklung machte zuletzt bedeutende Fortschritte, wie verschiedene neue Systeme zeigen: GameGen-O kann Open-World-Spielinhalte generieren, während Google und Deepmind mit GameNGen DOOM simulieren und DIAMOND Counter Strike rendern kann.

Allerdings haben diese Systeme noch deutliche Einschränkungen - von begrenztem "Gedächtnis" bis zu unscharfer Darstellung. Generative KI könnte die Spieleindustrie dennoch stark beeinflussen, da sie verschiedene Aspekte wie Code, Grafik und Assets teilautomatisieren kann.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft stellt das KI-Modell WHAMM vor, das Quake II grafisch und spielerisch in Echtzeit generiert, interaktive Steuerung ermöglicht und dabei deutlich schneller läuft als das Vorgängermodell.
  • WHAMM nutzt eine spezielle Technik, die parallele Bildgenerierung erlaubt, und kommt dank gezielter Datenauswahl mit drastisch weniger Trainingsmaterial aus.
  • Das System zeigt noch immer deutliche Einschränkungen: Gegner und Kämpfe wirken unklar, Objekte verschwinden schnell, die Spielwelt ist räumlich begrenzt, und Eingaben reagieren verzögert. Microsoft sieht WHAMM daher als experimentelle Grundlage für zukünftige KI-gestützte Spieleentwicklung.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!