Inhalt
summary Zusammenfassung

Mit Matrix-Game 2.0 präsentiert das Start-up Skywork ein KI-Modell, das in Echtzeit interaktive Videos mit verbesserter Konsistenz erzeugt.

Anzeige

Kürzlich zeigte Google Deepmind mit Genie 3 erstmals ein KI-Modell, das minutenlang konsistente interaktive Videos in hoher Bildqualität erzeugen kann. Matrix-Game 2.0 des KI-Start-ups Skywork soll diesen Fortschritt jetzt zumindest in Ansätzen als Open-Source-Modell verfügbar machen.

Das Modell erzeugt Bildraten von 25 FPS, unterstützt laut Skywork mehrminütige konsistente Interaktionen und lässt sich direkt über Tastatur und Maus steuern. Nutzer:innen sollen damit virtuelle Welten erkunden, durch Szenarien navigieren und auf Ereignisse in Echtzeit reagieren können.

Matrix-Game 2.0 ist in mehreren Spielumgebungen einsetzbar, darunter Stadtlandschaften, Wildnis-Simulationen oder TempleRun-ähnliche Szenarien. Das Modell wurde laut Skywork auf rund 1.200 Stunden interaktivem Videomaterial aus der Unreal Engine und dem Open-World-Spiel GTA5 trainiert.

Anzeige
Anzeige

Video: He at al.

Das zugrunde liegende Modell basiert auf einem autoregressiven Diffusionsansatz mit 1,8 Milliarden Parametern. Die Vorhersage zukünftiger Frames erfolgt ausschließlich auf Grundlage visueller Inhalte und entsprechender Nutzeraktionen. Ein zentrales Element ist das "Mouse/Keyboard-to-frame"-Modul, das Nutzereingaben direkt auf Frame-Ebene in das Modell einspeist. So reagiert die KI dynamisch auf Bewegungen und Steuerimpulse. Details zur Architektur stehen auf der Projektseite inklusive zahlreicher Demo-Szenen.

Bemerkenswert an der folgenden Demo-Szene ist die Konsistenz der Umgebung, die eindeutig an das Videospiel GTA5 erinnert. Bei früheren Demos dieser Art veränderte sie sich stetig, hier bleibt sie relativ konsistent. Die Stabilität von Deepminds Genie 3 hat das System dennoch nicht, so taucht bei Sekunde 0:10 plötzlich links ein See samt Gebäude auf, die beiden Objekte waren zuvor nicht in der Szene.

Der Ursprung des Trainingsmaterials ist unverkennbar – viele der gezeigten Szenen erinnern visuell und strukturell an Grand Theft Auto. Hier dürfte es rechtliche Fragen zur Nutzung urheberrechtlich geschützter Spielwelten geben. | Video: He et al.

Die bestehende Open-Source-Konkurrenz Oasis soll das Modell bei Faktoren wie Bildqualität, Konsistenz über Zeit und die Genauigkeit bei der Umsetzung von Nutzereingaben deutlich übertreffen.

Empfehlung

Interaktive Video-KI mit Echtzeit-Physik

Besonders hebt Skywork die Fähigkeit zur szenenübergreifenden Generalisierung hervor: Das Modell soll mit unterschiedlichen visuellen Stilen und Welten zurechtkommen, ohne dass es speziell dafür optimiert wurde. Figuren bewegen sich laut Skywork physikbewusst – sie reagieren auf Objekte und Umgebung mit plausiblen Animationen.

Potenzielle Anwendungsfelder für Matrix-Game 2.0 sind laut Skywork die Prototypenentwicklung für Spiele, das Training von KI-Agenten oder virtuelle Umgebungssimulationen für autonome Fahrsysteme. Auch für Anwendungen im Bereich der räumlichen Intelligenz oder Virtual Humans könnte das Modell relevant sein.

Matrix-Game 2.0 ist auf Hugging Face und GitHub frei zugänglich. Skywork beschreibt die Veröffentlichung als "produktionsreife Forschung", die unmittelbar in Entwicklungsprozesse integriert werden könne. Für die lokale Nutzung bietet Skywork eine vollständige Inferenzpipeline mit Unterstützung für FlashAttention sowie eine Streaming-Variante. Die Installation erfolgt über Standardpakete, die Inferenz wird über YAML-konfigurierbare Skripte gesteuert.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das Start-up Skywork stellt mit Matrix-Game 2.0 ein Open-Source-KI-Modell vor, das interaktive Videos mit 25 FPS und mehrminütiger Konsistenz erzeugt und direkt auf Nutzeraktionen per Tastatur und Maus reagiert.
  • Das Modell basiert auf einem autoregressiven Diffusionsansatz mit 1,8 Milliarden Parametern, verarbeitet ausschließlich visuelle Inhalte sowie Nutzerinteraktionen und wurde mit etwa 1.200 Stunden Videomaterial aus der Unreal Engine und GTA5 trainiert.
  • Skywork hebt die Fähigkeit des Modells zur Generalisierung über verschiedene Umgebungen, physikbewusste Bewegungen und vielseitige Einsatzmöglichkeiten hervor.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!