OpenAI stellt sein erstes generatives KI-Modell für Video namens Sora vor - und zieht direkt an der Konkurrenz vorbei.
OpenAI hat Sora, das erste Text-zu-Video-Modell des Unternehmens, in einem Blog-Eintrag und auf X, ehemals Twitter, angekündigt. Sora ist in der Lage, Videos mit einer Länge von bis zu einer Minute zu erzeugen, die ein bisher nicht gekanntes Maß an Qualität und vor allem an zeitlicher Stabilität aufweisen, während sie - laut OpenAI - auch Nutzerprompts gut folgen. Beispiele wie ein Hund, der zwischen Fensterbänken hindurchklettert, zeigen die beeindruckende Videostabilität des Modells.
Das KI-Modell steht nun einer ausgewählten Gruppe von Red Teamern für Schadens- und Risikobewertungen zur Verfügung sowie Künstlern, Designern und Filmemachern, die Feedback geben möchten, um den Nutzen für Kreativprofis zu verbessern.
OpenAI sieht Sora als ein Basismodell auf dem Weg zur AGI
Die derzeitigen Grenzen von Sora liegen laut OpenAI in der Schwierigkeit, komplexe physikalische Prozesse genau zu simulieren oder bestimmte Ursache-Wirkungs-Szenarien zu erfassen. Beispielsweise kann eine Figur in einen Keks beißen, aber der visuelle Effekt - eine Bissspur - kann fehlen. Sora kann auch bei räumlichen Details, wie der Unterscheidung von links und rechts, ins Stocken geraten und hat Schwierigkeiten mit detaillierten Beschreibungen von Ereignissen im zeitlichen Verlauf, z. B. beim Verfolgen einer Kamerabewegung.
Im Hinblick auf die Sicherheit hat OpenAI vor der Integration von Sora in seine Produkte mehrere Strategien umgesetzt: Dazu gehören die Zusammenarbeit mit Red Teamern und die Entwicklung von Tools wie einem Erkennungsklassifikator, der feststellen kann, ob ein Video von Sora erzeugt wurde. Zukünftig sollen C2PA-Metadaten integriert werden, sofern das Modell in einem OpenAI-Produkt verwendet wird. Aufbauend auf den Sicherheitsmethoden, die für DALL-E 3 entwickelt wurden, plant OpenAI den Einsatz von Textklassifikatoren, um nach Aufforderungen zu suchen, die gegen die Inhaltsrichtlinien verstoßen, und von Bildklassifikatoren, um Videoframes auf die Einhaltung der Nutzungsrichtlinien zu überprüfen.
Sora ist ein Diffusionsmodell, das statische, verrauschte Videos schrittweise in klare Bilder umwandelt. Durch die Darstellung von Videos als Sammlungen von Datenfeldern, ähnlich den Token von GPT, kann das Modell mit einer größeren Bandbreite visueller Daten arbeiten als bisher möglich, so die Firma. Durch die Verwendung von Techniken aus DALL-E 3 kann Sora Textanweisungen in den generierten Videos noch präziser ausführen. Die zeitliche Stabilität der Sora-Generierung ist möglich, weil das Modell "viele Bilder gleichzeitig vorhersagen kann". Genaue Details zur Methode sind, wie mittlerweile von OpenAI gewohnt, nicht verfügbar.
OpenAI betrachtet Sora als ein Foundation Model, das in der Lage ist, "die reale Welt zu verstehen und zu simulieren"- und damit als einen entscheidenden Schritt auf dem Weg zur allgemeinen künstlichen Intelligenz (AGI).
Weitere Beispiele sind auf der Sora-Website zu finden.