Zumindest sagt das Mira Murati in einem Interview mit dem Wall Street Journal: Sora sei auf öffentliche und lizenzierte Daten trainiert.
Damit wiederholt sie die Formulierung aus der Sora-Ankündigung von OpenAI. Auf die Frage der WSJ-Journalistin Joanna Stern, ob es sich dabei etwa um Videos von YouTube oder Facebook handele, antwortet Murati, "dass sie sich nicht sicher sei".
Natürlich ist Murati als CTO nicht unbedingt in die tägliche Entwicklung involviert. Aber da OpenAI derzeit links und rechts wegen angeblichen Datendiebstahls verklagt wird, wirkt die Antwort "ich bin mir nicht sicher" in einem vorbereiteten Interview wenig überzeugend.
Man kann ihr zugute halten, dass sich Sora noch in der Entwicklungsphase befindet und nicht so bald veröffentlicht wird. Nach dem Interview bestätigte Murati, dass unter anderem lizenzierte Daten von Shutterstock verwendet werden.
OpenAI sieht sich mit mehreren Klagen konfrontiert, unter anderem von Autoren und der New York Times, die behaupten, dass ihre urheberrechtlich geschützten Werke ohne Erlaubnis für das Training von KI-Modellen verwendet wurden.
OpenAI argumentiert, dass die Verwendung urheberrechtlich geschützter Daten für das KI-Training unter die Fair-Use-Regeln fällt und es unvermeidlich ist, urheberrechtlich geschütztes Material für das Training moderner KI-Modelle zu verwenden.
Murati äußert sich auch zu den Kosten von Sora: Derzeit sei die Videogenerierung noch "viel, viel teurer" als bestehende Systeme. Wenn Sora einmal auf den Markt kommt, sollen die Kosten ähnlich hoch sein wie für DALL-E 3. Die Veröffentlichung von Sora sei "definitiv für dieses Jahr" geplant, könne aber noch einige Monate dauern.
Die US-Wahlen im November könnten den Zeitpunkt der Veröffentlichung beeinflussen. Die Sicherheitsrichtlinien für Sora seien noch in Entwicklung, sollten aber ähnlich wie bei DALL-E 3 sein, wo etwa die Erstellung von Bildern öffentlich bekannter Personen verboten sei.