OpenAI sieht Sora als "GPT-1 für Video" und plant weitere Skalierung

9. April 2024 Maximilian Schreiner

OpenAI's KI-Modell Sora ist in der Lage, minutenlange Videos von beeindruckender Qualität zu produzieren. In einem Vortrag vergleichen die Entwickler es mit GPT-1, dem Vorläufer moderner Sprachmodelle.

OpenAI betrachtet Sora als Fundament, um die reale Welt immer besser zu verstehen und zu simulieren - ein entscheidender Schritt auf dem Weg zur AGI. In einer Präsentation im "AGI House" bezeichneten die Sora-Entwickler Tim Brooks und Bill Peebles nun das Modell als "GPT-1 für Video" - eine Anspielung auf das erste moderne Transformer-Sprachmodell GPT von 2018. Das Video wurde vom YouTuber Wes Roth hochgeladen.

Wie GPT-1 sei Sora Grundlagenforschung, aber mit dem Potenzial, bahnbrechende neue Anwendungen zu ermöglichen. Im Fall von GPT haben seine Nachfolger gezeigt, was möglich ist: von Chatbots über Code-Assistenten bis hin zu Textzusammenfassungen. Ähnliches verspricht sich OpenAI nun von Sora für die Videogenerierung und -analyse.

OpenAI erwartet emergente Fähigkeiten bei Skalierung

OpenAI sieht in Sora eine Demonstration, dass generative KI-Modelle für Video skalierbar sind und durch weitere Skalierung emergente Fähigkeiten entstehen. So zeige Sora in den Beispielvideos bereits ein grundlegendes Verständnis von physischer Interaktion und 3D-Geometrie realer Umgebungen. Menschen und Tiere bewegen sich nahezu natürlich durch generierte Welten, Objekte bleiben trotz Kameraschwenks erhalten und Oberflächen werfen realistische Reflexionen ab.

Als Schlüsselbereiche für weitere Fortschritte nennt das Sora-Team die Simulation komplexer physikalischer Prozesse, Kausalität sowie verbesserte räumlich-zeitliche Logik. Die Entwickler gehen davon aus, dass diese Fähigkeiten mit größeren Modellen erreicht werden können - ähnlich wie generative Sprachmodelle erst durch Skalierung eine natürlich wirkende Kohärenz entwickelten.

Langfristig hofft OpenAI, durch die multimodale Modellierung aller Umgebungen mit Sora und ähnlichen Modellen besser zu verstehen, wie Menschen, Tiere und Objekte in unserer Welt interagieren. Dies wäre ein entscheidender Schritt auf dem Weg zu einer allgemeinen künstlichen Intelligenz, die in der Lage ist, die reale Welt vollständig zu simulieren und zu verstehen. Daten und Methoden, um sie besser zu nutzen, sind laut dem Team in ausreichender Menge vorhanden.

Metas KI-Chef glaubt nicht an Soras Erfolg

Metas KI-Chef Yann LeCun sieht Sora dagegen nicht als geeignet an, um die Welt durch Pixelgenerierung vorherzusagen. Er bezeichnet diesen Ansatz als verschwenderisch und zum Scheitern verurteilt. LeCun argumentiert, dass generative Modelle für sensorische Eingaben scheitern werden, da es zu schwierig ist, mit der Vorhersageunsicherheit bei hochdimensionalen kontinuierlichen sensorischen Eingaben umzugehen. Er glaubt, dass generative KI für Text gut funktioniert, weil Text diskret ist und eine endliche Anzahl von Symbolen hat, was den Umgang mit Unsicherheiten vereinfacht.

LeCun hat fast zeitgleich mit Sora ein eigenes KI-Modell namens "Video Joint Embedding Predictive Architecture (V-JEPA)" vorgestellt, das komplexe Interaktionen vorhersagt und interpretiert, ohne auf generative Methoden zu setzen. V-JEPA konzentriert sich auf Vorhersagen in einem breiteren konzeptuellen Raum und ermöglicht es, sich an verschiedene Aufgaben anzupassen, indem eine kleine, aufgabenspezifische Schicht hinzugefügt wird, anstatt das gesamte Modell neu zu trainieren.

Sora steht derzeit einer ausgewählten Gruppe von Red Teamern für Schadens- und Risikobewertungen sowie Künstlern, Designern und Filmemachern zur Verfügung, die Feedback geben möchten, um den Nutzen für Kreativprofis zu verbessern. Die Veröffentlichung von Sora ist für dieses Jahr geplant, könnte aber noch einige Monate dauern, da der Zeitpunkt durch die US-Wahlen im November beeinflusst werden könnte.