Inhalt
summary Zusammenfassung

OpenAI stellt sein erstes generatives KI-Modell für Video namens Sora vor - und zieht direkt an der Konkurrenz vorbei.

Anzeige

OpenAI hat Sora, das erste Text-zu-Video-Modell des Unternehmens, in einem Blog-Eintrag und auf X, ehemals Twitter, angekündigt. Sora ist in der Lage, Videos mit einer Länge von bis zu einer Minute zu erzeugen, die ein bisher nicht gekanntes Maß an Qualität und vor allem an zeitlicher Stabilität aufweisen, während sie - laut OpenAI - auch Nutzerprompts gut folgen. Beispiele wie ein Hund, der zwischen Fensterbänken hindurchklettert, zeigen die beeindruckende Videostabilität des Modells.

Video: OpenAI

Das KI-Modell steht nun einer ausgewählten Gruppe von Red Teamern für Schadens- und Risikobewertungen zur Verfügung sowie Künstlern, Designern und Filmemachern, die Feedback geben möchten, um den Nutzen für Kreativprofis zu verbessern.

Anzeige
Anzeige

OpenAI sieht Sora als ein Basismodell auf dem Weg zur AGI

Die derzeitigen Grenzen von Sora liegen laut OpenAI in der Schwierigkeit, komplexe physikalische Prozesse genau zu simulieren oder bestimmte Ursache-Wirkungs-Szenarien zu erfassen. Beispielsweise kann eine Figur in einen Keks beißen, aber der visuelle Effekt - eine Bissspur - kann fehlen. Sora kann auch bei räumlichen Details, wie der Unterscheidung von links und rechts, ins Stocken geraten und hat Schwierigkeiten mit detaillierten Beschreibungen von Ereignissen im zeitlichen Verlauf, z. B. beim Verfolgen einer Kamerabewegung.

Im Hinblick auf die Sicherheit hat OpenAI vor der Integration von Sora in seine Produkte mehrere Strategien umgesetzt: Dazu gehören die Zusammenarbeit mit Red Teamern und die Entwicklung von Tools wie einem Erkennungsklassifikator, der feststellen kann, ob ein Video von Sora erzeugt wurde. Zukünftig sollen C2PA-Metadaten integriert werden, sofern das Modell in einem OpenAI-Produkt verwendet wird. Aufbauend auf den Sicherheitsmethoden, die für DALL-E 3 entwickelt wurden, plant OpenAI den Einsatz von Textklassifikatoren, um nach Aufforderungen zu suchen, die gegen die Inhaltsrichtlinien verstoßen, und von Bildklassifikatoren, um Videoframes auf die Einhaltung der Nutzungsrichtlinien zu überprüfen.

Video: OpenAI

Sora ist ein Diffusionsmodell, das statische, verrauschte Videos schrittweise in klare Bilder umwandelt. Durch die Darstellung von Videos als Sammlungen von Datenfeldern, ähnlich den Token von GPT, kann das Modell mit einer größeren Bandbreite visueller Daten arbeiten als bisher möglich, so die Firma. Durch die Verwendung von Techniken aus DALL-E 3 kann Sora Textanweisungen in den generierten Videos noch präziser ausführen. Die zeitliche Stabilität der Sora-Generierung ist möglich, weil das Modell "viele Bilder gleichzeitig vorhersagen kann". Genaue Details zur Methode sind, wie mittlerweile von OpenAI gewohnt, nicht verfügbar.

OpenAI betrachtet Sora als ein Foundation Model, das in der Lage ist, "die reale Welt zu verstehen und zu simulieren"- und damit als einen entscheidenden Schritt auf dem Weg zur allgemeinen künstlichen Intelligenz (AGI).

Empfehlung

Weitere Beispiele sind auf der Sora-Website zu finden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI hat Sora vorgestellt, sein erstes generatives KI-Modell für die Umwandlung von Text in Video, das Videos von bis zu einer Minute Länge mit beeindruckender visueller Genauigkeit und zeitlicher Stabilität erstellen kann.
  • Das Modell wird derzeit von einer ausgewählten Gruppe von Red Teamern zur Risikobewertung und von bildenden Künstlern, Designern und Filmemachern für kreatives Feedback getestet.
  • Zu den Einschränkungen von Sora gehören die Herausforderungen bei der Simulation komplexer physikalischer Prozesse und der Erfassung spezifischer Ursache-Wirkungs-Szenarien. OpenAI arbeitet an Sicherheitsmaßnahmen wie Erkennungsklassifikatoren und der Integration von Metadaten für eine zukünftige Produktimplementierung.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!