- Update: Weitere Details und Sora 2 Pro ergänzt
OpenAI bringt mit Sora 2 ein neues KI-Modell zur Video- mit Audiogenerierung auf den Markt samt begleitender iOS-App.
OpenAI hat mit Sora 2 eine neue Version seines Videomodells vorgestellt, das physikalisch realistischere Simulationen, verbesserte Kontrollierbarkeit und erstmals auch hochwertige Audiogenerierung bieten soll.
Parallel dazu startet eine neue iOS-App namens Sora, die auf sozialen Austausch rund um KI-generierte Inhalte ausgelegt ist. Technische Eckdaten wie Auflösung, Bildwiederholrate oder maximale Videolänge nennt OpenAI bislang nicht.
Der Sprung zu Sora 2 wird intern als bedeutsam eingestuft: Während das erste Sora-Modell noch als "GPT‑1-Moment" für Video galt – ein erster, begrenzter Durchbruch – sieht OpenAI in Sora bereits den "GPT‑3.5-Moment" für Videomodelle. Gemeint ist damit der Punkt, an dem generative Videotechnik erstmals als praktisch nutzbar gilt, vergleichbar mit dem Übergang von experimenteller zu alltagstauglicher Textverarbeitung bei Sprachmodellen.
Ein Grund für diesen Sprung: Sora 2 kann laut OpenAI komplexe physikalische Abläufe mit hoher Treue simulieren, etwa Rückwärtssaltos auf einem Paddleboard mit korrektem Auftrieb oder gymnastische Bewegungen mit realitätsnaher Dynamik.
Im Unterschied zu früheren Videomodellen, die Objekte verzerren oder teleportieren, zeigt Sora 2 etwa einen Basketballwurf, der bei einem Fehlschuss korrekt vom Brett abprallt. Laut OpenAI ist das ein Hinweis auf ein besseres physikalisches Verständnis des Modells. Langfristig sieht das Unternehmen in Sora 2 daher einen Schritt in Richtung genereller Welt-Simulatoren für physikalisch agierende KI-Systeme.
Kontrolle, Konsistenz, Klang
Sora 2 kann komplexe, mehrteilige Anweisungen über mehrere Szenen hinweg umsetzen und hält dabei den Weltzustand konsistent. Das Modell beherrscht verschiedene visuelle Stile – darunter realistische, filmische und animeartige Ästhetik – und erzeugt erstmals auch authentisch wirkende Hintergrundgeräusche, Sprache und Soundeffekte. Bild und Audio sollen wie bei Googles Veo 3 im Einklang sein.
Eine weitere Neuerung ist die Möglichkeit, sich selbst in generierte Videos einzufügen. Nutzerinnen und Nutzer können über eine einmalige Aufnahme der eigenen Stimme und Erscheinung sogenannte "Cameos" erstellen. Diese lassen sich mit hoher visueller und stimmlicher Ähnlichkeit in beliebige Szenen einfügen. Auch für Tiere oder Objekte ist die Einbindung möglich. Das folgende Video zeigt ein Cameo von OpenAI-CEO Sam Altman in Aktion.
OpenAI betont, dass Nutzer jederzeit die volle Kontrolle über ihr Cameo behalten. Nur autorisierte Personen dürfen ein Cameo verwenden, und sämtliche Videos – auch Entwürfe –, in denen das eigene Cameo erscheint, sind für die betroffene Person jederzeit einsehbar. Die Freigabe kann jederzeit widerrufen werden, Cameos lassen sich dauerhaft löschen.
Für Jugendliche gelten zusätzliche Schutzmaßnahmen wie eingeschränkte Nutzung, geringere Sichtbarkeit und standardmäßige Sicherheitsgrenzen. Deepfakes von bekannten Personen sind technisch möglich, sollen aber unterbunden werden, wenn es von der Person nicht explizit erwünscht wird.
Sora-App mit sozialem Fokus
Sora 2 wird über eine neue iOS-App ausgerollt, in der Nutzer eigene Videos erstellen, Inhalte anderer remixieren und einen personalisierten Feed durchstöbern können. Die App startet zunächst einladungsbasiert in den USA und Kanada, soll aber bald international verfügbar sein. Zum Start ist die Nutzung kostenlos, mit von OpenAI als "großzügig" bezeichneten Limits.
Der Feed hebt Inhalte von Personen hervor, mit denen man interagiert, sowie Clips mit hohem Remix-Potenzial. Die Empfehlungen basieren auf OpenAIs Sprachmodellen und lassen sich per Texteingabe anpassen. OpenAI betont, dass die App nicht auf maximale Verweildauer optimiert sei, sondern kreatives Gestalten statt passives Konsumieren fördern solle. In einer eigenen "Feed-Philosophie" verspricht das Unternehmen, an diesem Paradigma festzuhalten.
Der Zugriff auf das höherwertige Modell "Sora 2 Pro" bleibt zunächst auf eingeladene Nutzer unter sora.com beschränkt. Eine API ist laut OpenAI in Vorbereitung. Weitere Eindrücke bietet der offizielle Livestream zur Sora-2-Ankündigung. Auch Meta arbeitet an einem KI-generierten Video-Feed mit ähnlicher Ausrichtung.