OpenAIs Sora ist sehr viel mehr als ein Text-zu-Video-Generator

Das neue KI-Modell von OpenAI sieht aus wie ein gigantischer Sprung in der Text- und Video-zu-Video-Generierung. Doch das Potenzial des Modells ist viel größer: Es könnte ein Weltensimulator werden.

Gestern hat OpenAI Sora vorgestellt, ein großes KI-Modell zur Generierung von Videos und Bildern. Mit Sora ist OpenAI in der Lage, Videos von bis zu einer Minute Länge, in verschiedenen Seitenverhältnissen und Auflösungen und in bisher unerreichter Qualität zu erzeugen.

Sora basiert auf einer ähnlichen Transformer-Architektur, die bereits bei Sprachmodellen zum Einsatz kam, und kombiniert diese mit Diffusionstechniken von Bildgeneratoren. Das Modell nimmt Videos und Bilder während des Trainings auf und zerlegt sie in einfachere Formen und kleinere Teile. Aus diesen Teilen kann Sora dann neue visuelle Inhalte generieren.

Im Gegensatz zu vielen früheren Arbeiten, die sich auf bestimmte Kategorien visueller Daten, kürzere Videos oder Videos mit einer festen Größe konzentrierten, ist Sora ein Generalist für visuelle Daten. Es kann Videos und Bilder mit unterschiedlichen Längen, Seitenverhältnissen und Auflösungen erzeugen. Aber das ist längst nicht alles.

Sora als Weltensimulator

OpenAI äußert sich nicht zu den verwendeten Trainingsdaten. Die bisher von OpenAI gezeigten Szenen enthalten jedoch visuelle Hinweise darauf, dass OpenAI anstelle von oder zusätzlich zu realen Aufnahmen sehr hochwertige synthetische Trainingsdaten verwendet, fotorealistische Szenen, die mit einer Game Engine generiert wurden.

Damit würde das Unternehmen auch mögliche Urheberrechtsprobleme umgehen oder abmildern, wie sie von Text- und Bildgeneratoren bekannt sind. Jim Fan von NVIDIA vermutet, dass die KI mit synthetischen Daten trainiert wurde, die mit der Unreal Engine 5 erzeugt wurden.

Im folgenden Video zum Beispiel sieht der Staub hinter dem Auto wie in einem Videospiel aus, zumal er nur hinter dem Auto auftritt und nicht um das Auto herum, wie es in der Realität der Fall wäre.

Video: OpenAI

In dieser kurzen Sequenz sind die Animationen der beiden Hauptprotagonisten verräterisch: Sie wirken zwar realistisch, aber erinnern in ihrer Gleichförmigkeit an ein Videospiel. Menschliche Bewegungen sind vielfältiger.

Empfehlung

KI und Gesellschaft

US-Denkfabrik warnt vor "umgekehrtem Brain Drain" in Chinas KI-Sektor

Video: OpenAI

Ein weiteres Indiz für das synthetische Datentraining ist, dass Sora Videos mit dynamischen Kamerabewegungen und dreidimensionaler Kohärenz erzeugen kann. Wenn sich die Kamera bewegt und dreht, bewegen sich die Personen und Szenenelemente kohärent im dreidimensionalen Raum.

Und Sora kann Aktionen simulieren, die den Zustand der Welt auf einfache Weise beeinflussen. Zum Beispiel kann ein Maler neue Linien auf einer Leinwand hinterlassen, die sich mit der Zeit verändern, oder ein Mann kann einen Burger essen und dabei Bissspuren hinterlassen. Elemente in Videos wie Wellen und Schiffe können physikalisch korrekt miteinander interagieren.

Das Modell kann also nicht nur Bild für Bild erzeugen, sondern auch Interaktionen innerhalb einer Welt, ähnlich wie in einem Videospiel. Ganz konkret macht OpenAI das am Beispiel von Minecraft: Sora kann eine Minecraft-Welt generieren und darin wie im Originalspiel interagieren. Dazu muss man nur "Minecraft" in den Prompt eintippen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Video: OpenAI

Das geht weit über die Videogenerierung hinaus und deutet auf einen grundlegenden Umbruch in der Erstellung von Spielgrafiken hin. Wer einen noch detaillierteren Beweis dafür benötigt, kann sich in einer Demo eine Szene ansehen, die wie aus einem Rennspiel wirkt. Sie zeigt, wie Sora die gleiche Sequenz in verschiedenen Variationen darstellen kann, vom Dschungel über eine Unterwasserwelt über Cyberpunk bis zu einer Retro-Pixelgrafik - nur per Textbefehl.

Natürlich sind noch viele Fragen offen, etwa zum Rechenaufwand und zur Interaktionstiefe. Aber nach Nvidias DLLS zeichnet sich hier der nächste, noch weitreichendere Umbruch in der Computergrafik ab.

Trotz seiner beeindruckenden Fähigkeiten hat Sora laut OpenAI derzeit einige Einschränkungen als Simulator. Zum Beispiel modelliert Sora die Physik vieler grundlegender Interaktionen, wie das Zerbrechen von Glas, nicht korrekt.

Andere Interaktionen, wie Nahrungsaufnahme, führen nicht immer zu korrekten Zustandsänderungen der Objekte. Weitere häufige Fehlermodi des Modells sind Inkonsistenzen, die sich über längere Zeiträume entwickeln, oder das spontane Auftreten von Objekten.

Diese Probleme könnten jedoch durch eine weitere Skalierung der Modelle gelöst werden, meint OpenAI: "Die Skalierung von Modellen zur Videogenerierung ist ein vielversprechender Weg, um universell einsetzbare Simulatoren der physischen Welt zu bauen."

Die Idee, dass Videomodelle als Weltmodelle dienen können, weil sie etwa die komplexe Vielfalt des Alltags besser abbilden können als reine Text- und Bildmodelle, ist nicht grundsätzlich neu.

Das Video-KI-Startup RunwayML hat kürzlich seine eigene Weltmodellforschung vorgestellt, und das Startup Wayve verwendet Videomodelle, um den Straßenverkehr für selbstfahrende Autos zu simulieren.

Meta sammelt seit Jahren Tausende Stunden Video aus der Ego-Perspektive, um KI-Assistenzsysteme für Alltagssituationen trainieren zu können, und stellte mit V-JEPA am Tag der Sora-Enthüllung eine neue Architektur vor, die komplexe Interaktionen in Videos vorhersagen und verstehen soll.

OpenAIs Sora stellt jedoch alle bisher bekannten Ansätze und Modelle in den Schatten.

OpenAIs Sora ist sehr viel mehr als ein Text-zu-Video-Generator

Sora als Weltensimulator

US-Denkfabrik warnt vor "umgekehrtem Brain Drain" in Chinas KI-Sektor

Forscher verstecken LLM-Prompts in Papern, um bessere Bewertungen zu erhalten

US-Regierung will Export von KI-Chips nach Malaysia und Thailand beschränken

"Keine Schonfrist, keine Pause": Die EU will den AI Act trotz Unternehmensproteste durchsetzen

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

OpenAIs Sora ist sehr viel mehr als ein Text-zu-Video-Generator

Sora als Weltensimulator

Artikel teilen

Bankverbindung