Inhalt
summary Zusammenfassung

Das neue KI-Modell von OpenAI sieht aus wie ein gigantischer Sprung in der Text- und Video-zu-Video-Generierung. Doch das Potenzial des Modells ist viel größer: Es könnte ein Weltensimulator werden.

Gestern hat OpenAI Sora vorgestellt, ein großes KI-Modell zur Generierung von Videos und Bildern. Mit Sora ist OpenAI in der Lage, Videos von bis zu einer Minute Länge, in verschiedenen Seitenverhältnissen und Auflösungen und in bisher unerreichter Qualität zu erzeugen.

Sora basiert auf einer ähnlichen Transformer-Architektur, die bereits bei Sprachmodellen zum Einsatz kam, und kombiniert diese mit Diffusionstechniken von Bildgeneratoren. Das Modell nimmt Videos und Bilder während des Trainings auf und zerlegt sie in einfachere Formen und kleinere Teile. Aus diesen Teilen kann Sora dann neue visuelle Inhalte generieren.

Im Gegensatz zu vielen früheren Arbeiten, die sich auf bestimmte Kategorien visueller Daten, kürzere Videos oder Videos mit einer festen Größe konzentrierten, ist Sora ein Generalist für visuelle Daten. Es kann Videos und Bilder mit unterschiedlichen Längen, Seitenverhältnissen und Auflösungen erzeugen. Aber das ist längst nicht alles.

Anzeige
Anzeige

Sora als Weltensimulator

OpenAI äußert sich nicht zu den verwendeten Trainingsdaten. Die bisher von OpenAI gezeigten Szenen enthalten jedoch visuelle Hinweise darauf, dass OpenAI anstelle von oder zusätzlich zu realen Aufnahmen sehr hochwertige synthetische Trainingsdaten verwendet, fotorealistische Szenen, die mit einer Game Engine generiert wurden.

Damit würde das Unternehmen auch mögliche Urheberrechtsprobleme umgehen oder abmildern, wie sie von Text- und Bildgeneratoren bekannt sind. Jim Fan von NVIDIA vermutet, dass die KI mit synthetischen Daten trainiert wurde, die mit der Unreal Engine 5 erzeugt wurden.

Im folgenden Video zum Beispiel sieht der Staub hinter dem Auto wie in einem Videospiel aus, zumal er nur hinter dem Auto auftritt und nicht um das Auto herum, wie es in der Realität der Fall wäre.

Video: OpenAI

In dieser kurzen Sequenz sind die Animationen der beiden Hauptprotagonisten verräterisch: Sie wirken zwar realistisch, aber erinnern in ihrer Gleichförmigkeit an ein Videospiel. Menschliche Bewegungen sind vielfältiger.

Empfehlung

Video: OpenAI

Ein weiteres Indiz für das synthetische Datentraining ist, dass Sora Videos mit dynamischen Kamerabewegungen und dreidimensionaler Kohärenz erzeugen kann. Wenn sich die Kamera bewegt und dreht, bewegen sich die Personen und Szenenelemente kohärent im dreidimensionalen Raum.

Und Sora kann Aktionen simulieren, die den Zustand der Welt auf einfache Weise beeinflussen. Zum Beispiel kann ein Maler neue Linien auf einer Leinwand hinterlassen, die sich mit der Zeit verändern, oder ein Mann kann einen Burger essen und dabei Bissspuren hinterlassen. Elemente in Videos wie Wellen und Schiffe können physikalisch korrekt miteinander interagieren.

Das Modell kann also nicht nur Bild für Bild erzeugen, sondern auch Interaktionen innerhalb einer Welt, ähnlich wie in einem Videospiel. Ganz konkret macht OpenAI das am Beispiel von Minecraft: Sora kann eine Minecraft-Welt generieren und darin wie im Originalspiel interagieren. Dazu muss man nur "Minecraft" in den Prompt eintippen.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Video: OpenAI

Das geht weit über die Videogenerierung hinaus und deutet auf einen grundlegenden Umbruch in der Erstellung von Spielgrafiken hin. Wer einen noch detaillierteren Beweis dafür benötigt, kann sich in einer Demo eine Szene ansehen, die wie aus einem Rennspiel wirkt. Sie zeigt, wie Sora die gleiche Sequenz in verschiedenen Variationen darstellen kann, vom Dschungel über eine Unterwasserwelt über Cyberpunk bis zu einer Retro-Pixelgrafik - nur per Textbefehl.

Bild: OpenAI

Natürlich sind noch viele Fragen offen, etwa zum Rechenaufwand und zur Interaktionstiefe. Aber nach Nvidias DLLS zeichnet sich hier der nächste, noch weitreichendere Umbruch in der Computergrafik ab.

Trotz seiner beeindruckenden Fähigkeiten hat Sora laut OpenAI derzeit einige Einschränkungen als Simulator. Zum Beispiel modelliert Sora die Physik vieler grundlegender Interaktionen, wie das Zerbrechen von Glas, nicht korrekt.

Andere Interaktionen, wie Nahrungsaufnahme, führen nicht immer zu korrekten Zustandsänderungen der Objekte. Weitere häufige Fehlermodi des Modells sind Inkonsistenzen, die sich über längere Zeiträume entwickeln, oder das spontane Auftreten von Objekten.

Diese Probleme könnten jedoch durch eine weitere Skalierung der Modelle gelöst werden, meint OpenAI: "Die Skalierung von Modellen zur Videogenerierung ist ein vielversprechender Weg, um universell einsetzbare Simulatoren der physischen Welt zu bauen."

Die Idee, dass Videomodelle als Weltmodelle dienen können, weil sie etwa die komplexe Vielfalt des Alltags besser abbilden können als reine Text- und Bildmodelle, ist nicht grundsätzlich neu.

Das Video-KI-Startup RunwayML hat kürzlich seine eigene Weltmodellforschung vorgestellt, und das Startup Wayve verwendet Videomodelle, um den Straßenverkehr für selbstfahrende Autos zu simulieren.

Meta sammelt seit Jahren Tausende Stunden Video aus der Ego-Perspektive, um KI-Assistenzsysteme für Alltagssituationen trainieren zu können, und stellte mit V-JEPA am Tag der Sora-Enthüllung eine neue Architektur vor, die komplexe Interaktionen in Videos vorhersagen und verstehen soll.

OpenAIs Sora stellt jedoch alle bisher bekannten Ansätze und Modelle in den Schatten.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI hat mit Sora ein beeindruckendes KI-Modell zur Generierung von Videos und Bildern vorgestellt. Das Modell geht jedoch weit darüber hinaus: Sora könnte als Weltensimulator dienen, da es in der Lage ist, konsistente 3D-Welten mit Interaktionen zu erzeugen, ähnlich wie in einem Videospiel.
  • Wahrscheinlich wurde das Modell mit synthetischen Daten trainiert wurde, die mit einer Spiele-Engine wie der Unreal Engine 5 erzeugt wurden. Sora kann sogar eine interaktive Minecraft-Welt generieren.
  • Trotz seiner beeindruckenden Fähigkeiten hat Sora als Simulator derzeit noch Einschränkungen, wie inkorrekte physikalische Simulationen oder Inkonsistenzen über längere Zeiträume. OpenAI glaubt jedoch, dass diese Probleme durch eine weitere Skalierung der Modelle gelöst werden können.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!