Inhalt
summary Zusammenfassung

Das KI-Labor Odyssey präsentiert ein neuartiges Format: vollständig von KI generierte Videos, die in Echtzeit auf Nutzereingaben reagieren.

Anzeige

Odyssey zeigt in einer Forschungsvorschau sogenannte interaktive Videos – KI-generierte Bildsequenzen, die in Echtzeit auf Nutzereingaben reagieren. Nutzer können per Tastatur, Controller oder Smartphone mit dem Video interagieren, das sich entsprechend verändert. Möglich wird dies durch ein autoregressives Weltmodell, das den jeweils nächsten Weltzustand basierend auf aktuellem Zustand, Nutzeraktion und Historie berechnet.

Video: via Odyssey

Vom Video- zum Welten-Generator

Im Gegensatz zu klassischen Videomodellen, die ganze Clips auf einmal erzeugen, reagiert das Weltmodell von Odyssey frameweise auf Eingaben. Die Vision des Unternehmens geht dabei über bloße Videointeraktivität hinaus: Langfristig soll ein Modell entstehen, das Bilder und Handlungen so realitätsnah simuliert, dass sie von echtem Video nicht zu unterscheiden sind. Odyssey sieht darin die Grundlage für ein neues Medium – mit Anwendungen in Unterhaltung, Werbung, Bildung und darüber hinaus.

Anzeige
Anzeige

Die Technologie dahinter wird von Odyssey als "Weltmodell" klassifiziert – einem KI-System, das nicht nur Medien erzeugt, sondern dynamische Umgebungen simuliert. Solche Modelle gelten als potenzielle Trainingsumgebungen für agentische KI, die in simulierten Welten eigenständig agieren und lernen kann. Das wiederum soll es KI ermöglichen, aus eigenen Erfahrungen zu lernen.

Weltmodell Videomodell
Berechnet ein einzelnes Frame basierend auf dem aktuellen Zustand und der Nutzerinteraktion. Erzeugt ein komplettes Video auf einmal, ohne spätere Eingriffsmöglichkeiten.
Jede Zukunft ist offen – das Modell reagiert dynamisch auf neue Eingaben. Das Modell kennt Anfang und Ende des Clips von Beginn an.
Vollständig interaktiv – reagiert unmittelbar auf Nutzereingaben in Echtzeit. Keine Interaktivität – der Clip läuft immer gleich ab.

Die aktuelle Demo ist laut des Unternehmens noch instabil und roh, vermittelt aber bereits das Potenzial dieser neuen Form von KI-generierten Inhalten. Statt wie bisher Inhalte aufwendig zu produzieren, könnten zukünftig vollständig interaktive Erlebnisse direkt per KI erzeugt werden.

Stabilität durch eingeschränkte Generalisierung

Für die aktuelle Vorschau setzt Odyssey auf ein sogenanntes "Narrow Distribution Model". Das Modell wurde zunächst auf allgemeines Videomaterial trainiert und anschließend auf Videodaten aus wenigen, stark dokumentierten Umgebungen feinjustiert.

Laut Mitgründer Oliver Cameron sorgt die gezielte Einschränkung des Trainingsmaterials dafür, dass das Modell stabiler bleibt und nicht so leicht in unlogische Bildabfolgen abdriftet. Ein breiter trainiertes Modell würde laut Cameron schon nach 20 bis 30 Sekunden auseinanderfallen – die aktuelle Version soll dagegen etwa 2,5 Minuten lang konsistente Videosequenzen liefern.

Eine weitere Einschränkung der aktuellen Version ist, dass Nutzer sich nicht frei nach oben oder unten umsehen können. Auch das ist ein Ergebnis des fokussierten Trainings, das der Stabilität Vorrang vor maximaler Bewegungsfreiheit gibt.

Empfehlung

Jedes einzelne Frame wird laut Cameron dabei durch ein eigens trainiertes Diffusionsmodell erzeugt. Eingaben der Nutzer werden in Echtzeit verarbeitet: Das Modell berechnet alle 40 Millisekunden ein neues Frame und streamt dieses zurück. Möglich wird das durch GPU-Cluster mit H100-Chips in den USA und der EU. Die Latenz liegt bei optimalen Bedingungen bei 40 Millisekunden, die Kosten pro Nutzerstunde derzeit zwischen ein und zwei US-Dollar – mit fallender Tendenz.

Parallel arbeitet Odyssey bereits an einem Modell mit größerer Generalisierung und realistischeren Dynamiken. Erste Rohfassungen zeigen laut des Start-ups eine höhere Vielfalt an Pixelmustern, Bewegungen und Interaktionen bei gleichzeitig besserer zeitlicher Konsistenz.

Bild: Cameron via X

Ein verwandter Ansatz stammt vom Start-up Decart AI: Das Projekt Oasis ist ein Minecraft-ähnliches Spiel, das ebenfalls in Echtzeit von einer KI erzeugt wird. Ein auf Videos trainiertes Modell generiert Grafik, Physik und Gameplay, während Spieler mit Maus und Tastatur interagieren. Technisch kombiniert Oasis Vision-Transformer mit einem Diffusionsmodell zur Bildstabilisierung.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das Start-up Odyssey stellt eine Forschungsvorschau für interaktive Videos vor, die vollständig in Echtzeit von KI generiert werden und direkt auf Nutzereingaben reagieren – gesteuert etwa per Tastatur, Controller oder Smartphone.
  • Im Unterschied zu klassischen Videomodellen berechnet das eingesetzte Weltmodell jeden Videoframe einzeln auf Basis der aktuellen Nutzeraktion und des bisherigen Verlaufs.
  • Die aktuelle Version bietet etwa 2,5 Minuten visuelle Stabilität pro Durchlauf und erzeugt alle 40 Millisekunden ein neues Frame, das direkt an den Nutzer gestreamt wird. Odyssey arbeitet parallel an einem Modell mit breiterer Generalisierung.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!