Inhalt
summary Zusammenfassung

OpenAI's KI-Modell Sora ist in der Lage, minutenlange Videos von beeindruckender Qualität zu produzieren. In einem Vortrag vergleichen die Entwickler es mit GPT-1, dem Vorläufer moderner Sprachmodelle.

OpenAI betrachtet Sora als Fundament, um die reale Welt immer besser zu verstehen und zu simulieren - ein entscheidender Schritt auf dem Weg zur AGI.  In einer Präsentation im "AGI House" bezeichneten die Sora-Entwickler Tim Brooks und Bill Peebles nun das Modell als "GPT-1 für Video" - eine Anspielung auf das erste moderne Transformer-Sprachmodell GPT von 2018. Das Video wurde vom YouTuber Wes Roth hochgeladen.

Wie GPT-1 sei Sora Grundlagenforschung, aber mit dem Potenzial, bahnbrechende neue Anwendungen zu ermöglichen. Im Fall von GPT haben seine Nachfolger gezeigt, was möglich ist: von Chatbots über Code-Assistenten bis hin zu Textzusammenfassungen. Ähnliches verspricht sich OpenAI nun von Sora für die Videogenerierung und -analyse.

OpenAI erwartet emergente Fähigkeiten bei Skalierung

OpenAI sieht in Sora eine Demonstration, dass generative KI-Modelle für Video skalierbar sind und durch weitere Skalierung emergente Fähigkeiten entstehen. So zeige Sora in den Beispielvideos bereits ein grundlegendes Verständnis von physischer Interaktion und 3D-Geometrie realer Umgebungen. Menschen und Tiere bewegen sich nahezu natürlich durch generierte Welten, Objekte bleiben trotz Kameraschwenks erhalten und Oberflächen werfen realistische Reflexionen ab.

Anzeige
Anzeige

Als Schlüsselbereiche für weitere Fortschritte nennt das Sora-Team die Simulation komplexer physikalischer Prozesse, Kausalität sowie verbesserte räumlich-zeitliche Logik. Die Entwickler gehen davon aus, dass diese Fähigkeiten mit größeren Modellen erreicht werden können - ähnlich wie generative Sprachmodelle erst durch Skalierung eine natürlich wirkende Kohärenz entwickelten.

Langfristig hofft OpenAI, durch die multimodale Modellierung aller Umgebungen mit Sora und ähnlichen Modellen besser zu verstehen, wie Menschen, Tiere und Objekte in unserer Welt interagieren. Dies wäre ein entscheidender Schritt auf dem Weg zu einer allgemeinen künstlichen Intelligenz, die in der Lage ist, die reale Welt vollständig zu simulieren und zu verstehen. Daten und Methoden, um sie besser zu nutzen, sind laut dem Team in ausreichender Menge vorhanden.

Metas KI-Chef glaubt nicht an Soras Erfolg

Metas KI-Chef Yann LeCun sieht Sora dagegen nicht als geeignet an, um die Welt durch Pixelgenerierung vorherzusagen. Er bezeichnet diesen Ansatz als verschwenderisch und zum Scheitern verurteilt. LeCun argumentiert, dass generative Modelle für sensorische Eingaben scheitern werden, da es zu schwierig ist, mit der Vorhersageunsicherheit bei hochdimensionalen kontinuierlichen sensorischen Eingaben umzugehen. Er glaubt, dass generative KI für Text gut funktioniert, weil Text diskret ist und eine endliche Anzahl von Symbolen hat, was den Umgang mit Unsicherheiten vereinfacht.

LeCun hat fast zeitgleich mit Sora ein eigenes KI-Modell namens "Video Joint Embedding Predictive Architecture (V-JEPA)" vorgestellt, das komplexe Interaktionen vorhersagt und interpretiert, ohne auf generative Methoden zu setzen. V-JEPA konzentriert sich auf Vorhersagen in einem breiteren konzeptuellen Raum und ermöglicht es, sich an verschiedene Aufgaben anzupassen, indem eine kleine, aufgabenspezifische Schicht hinzugefügt wird, anstatt das gesamte Modell neu zu trainieren.

Sora steht derzeit einer ausgewählten Gruppe von Red Teamern für Schadens- und Risikobewertungen sowie Künstlern, Designern und Filmemachern zur Verfügung, die Feedback geben möchten, um den Nutzen für Kreativprofis zu verbessern. Die Veröffentlichung von Sora ist für dieses Jahr geplant, könnte aber noch einige Monate dauern, da der Zeitpunkt durch die US-Wahlen im November beeinflusst werden könnte.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI hat ein KI-Modell namens Sora entwickelt, das minutenlange Videos von hoher Qualität erzeugen kann.
  • Die Entwickler vergleichen es mit GPT-1, dem ersten modernen Sprachmodell, das den Grundstein für Anwendungen wie Chatbots und Code-Assistenten legte.
  • OpenAI sieht in Sora das Potenzial, durch weitere Skalierung ein besseres Verständnis der realen Welt zu erlangen, indem es lernt, wie Menschen, Tiere und Objekte interagieren. Dies könnte ein wichtiger Schritt auf dem Weg zu einer allgemeinen künstlichen Intelligenz sein.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!