Mit Matrix-Game 2.0 präsentiert das Start-up Skywork ein KI-Modell, das in Echtzeit interaktive Videos mit verbesserter Konsistenz erzeugt.
Kürzlich zeigte Google Deepmind mit Genie 3 erstmals ein KI-Modell, das minutenlang konsistente interaktive Videos in hoher Bildqualität erzeugen kann. Matrix-Game 2.0 des KI-Start-ups Skywork soll diesen Fortschritt jetzt zumindest in Ansätzen als Open-Source-Modell verfügbar machen.
Das Modell erzeugt Bildraten von 25 FPS, unterstützt laut Skywork mehrminütige konsistente Interaktionen und lässt sich direkt über Tastatur und Maus steuern. Nutzer:innen sollen damit virtuelle Welten erkunden, durch Szenarien navigieren und auf Ereignisse in Echtzeit reagieren können.
Matrix-Game 2.0 ist in mehreren Spielumgebungen einsetzbar, darunter Stadtlandschaften, Wildnis-Simulationen oder TempleRun-ähnliche Szenarien. Das Modell wurde laut Skywork auf rund 1.200 Stunden interaktivem Videomaterial aus der Unreal Engine und dem Open-World-Spiel GTA5 trainiert.
Video: He at al.
Das zugrunde liegende Modell basiert auf einem autoregressiven Diffusionsansatz mit 1,8 Milliarden Parametern. Die Vorhersage zukünftiger Frames erfolgt ausschließlich auf Grundlage visueller Inhalte und entsprechender Nutzeraktionen. Ein zentrales Element ist das "Mouse/Keyboard-to-frame"-Modul, das Nutzereingaben direkt auf Frame-Ebene in das Modell einspeist. So reagiert die KI dynamisch auf Bewegungen und Steuerimpulse. Details zur Architektur stehen auf der Projektseite inklusive zahlreicher Demo-Szenen.
Bemerkenswert an der folgenden Demo-Szene ist die Konsistenz der Umgebung, die eindeutig an das Videospiel GTA5 erinnert. Bei früheren Demos dieser Art veränderte sie sich stetig, hier bleibt sie relativ konsistent. Die Stabilität von Deepminds Genie 3 hat das System dennoch nicht, so taucht bei Sekunde 0:10 plötzlich links ein See samt Gebäude auf, die beiden Objekte waren zuvor nicht in der Szene.
Der Ursprung des Trainingsmaterials ist unverkennbar – viele der gezeigten Szenen erinnern visuell und strukturell an Grand Theft Auto. Hier dürfte es rechtliche Fragen zur Nutzung urheberrechtlich geschützter Spielwelten geben. | Video: He et al.
Die bestehende Open-Source-Konkurrenz Oasis soll das Modell bei Faktoren wie Bildqualität, Konsistenz über Zeit und die Genauigkeit bei der Umsetzung von Nutzereingaben deutlich übertreffen.
Interaktive Video-KI mit Echtzeit-Physik
Besonders hebt Skywork die Fähigkeit zur szenenübergreifenden Generalisierung hervor: Das Modell soll mit unterschiedlichen visuellen Stilen und Welten zurechtkommen, ohne dass es speziell dafür optimiert wurde. Figuren bewegen sich laut Skywork physikbewusst – sie reagieren auf Objekte und Umgebung mit plausiblen Animationen.
Potenzielle Anwendungsfelder für Matrix-Game 2.0 sind laut Skywork die Prototypenentwicklung für Spiele, das Training von KI-Agenten oder virtuelle Umgebungssimulationen für autonome Fahrsysteme. Auch für Anwendungen im Bereich der räumlichen Intelligenz oder Virtual Humans könnte das Modell relevant sein.
Matrix-Game 2.0 ist auf Hugging Face und GitHub frei zugänglich. Skywork beschreibt die Veröffentlichung als "produktionsreife Forschung", die unmittelbar in Entwicklungsprozesse integriert werden könne. Für die lokale Nutzung bietet Skywork eine vollständige Inferenzpipeline mit Unterstützung für FlashAttention sowie eine Streaming-Variante. Die Installation erfolgt über Standardpakete, die Inferenz wird über YAML-konfigurierbare Skripte gesteuert.