Skip to content

KI-Videogeneratoren wie Sora verstehen keine Physik und sind daher keine Weltmodelle

Image description
Midjourney prompted by THE DECODER

Kurz & Knapp

  • Eine neue Studie von Bytedance Research und der Tsinghua University zeigt, dass aktuelle Video-KI-Modelle wie OpenAIs Sora zwar beeindruckende Bilder erzeugen können, die physikalischen Gesetze dahinter aber nicht verstehen.
  • Die Forscher testeten die Modelle in drei Szenarien und fanden heraus, dass sie keine universellen Regeln lernen, sondern sich an oberflächlichen Merkmalen der Trainingsdaten orientieren. Bei unbekannten Situationen versagen sie, auch wenn es sich um simple physikalische Vorgänge handelt.
  • Die Forscher betonen, dass simples Hochskalieren nicht ausreicht, um fundamentale physikalische Gesetze zu entdecken. Die Ergebnisse dämpfen die Erwartungen an Videomodelle wie Sora, die zu echten Weltmodellen weiterentwickelt werden sollen.

Eine neue Studie von Bytedance Research und der Tsinghua University zeigt: Aktuelle Video-KI-Modelle wie OpenAIs Sora können zwar beeindruckende Bilder erzeugen, verstehen die physikalischen Gesetze dahinter aber nicht.

Video-KI-Modelle wie OpenAIs Sora sollen eines Tages die reale Welt simulieren können und so dafür sorgen, dass sich KI besser in der Realität zurechtfindet.

Aber wie gut verstehen sie die physikalischen Gesetze? Wissenschaftler der Tsinghua-Universität und von Bytedance Research testeten die Weltmodellfähigkeiten von Videogeneratoren in drei Szenarien: Vorhersagen innerhalb bekannter Muster (In-Distribution), außerhalb bekannter Muster (Out-of-Distribution) und mit neuen Kombinationen bekannter Elemente.

Ziel der Studie war es, herauszufinden, ob diese Modelle wirklich physikalische Gesetze lernen oder nur Muster aus den Trainingsdaten nachahmen.

Perfekt bei bekannten Mustern, Versagen bei Neuem

Die Forscher fanden heraus, dass die Modelle keine universellen Regeln lernen. Stattdessen orientieren sie sich an oberflächlichen Merkmalen der Trainingsdaten. Dabei folgen sie einer klaren Hierarchie: Die Farbe eines Objekts hat höchste Priorität, gefolgt von Größe, Geschwindigkeit und Form.

Die Ergebnisse zeigen ein klares Muster: Bei bekannten Szenarien funktionieren die Modelle nahezu perfekt. Sobald sie jedoch mit unbekannten Situationen konfrontiert werden, versagen sie - auch wenn es sich um simple physikalische Vorgänge wie gradlinige Bewegungen oder Kollisionen handelt.

Mitautor Bingyi Kang verdeutlicht die Ergebnisse an einem konkreten Beispiel: "Wenn wir das Modell mit Bällen trainieren, die sich mit hoher Geschwindigkeit von links nach rechts und und von rechts nach links bewegen, und es dann mit langsamen Bällen testen, können diese plötzlich nach den ersten Bildern ihre Richtung ändern", erklärt er auf X (im Video ab 1:55).

Video: Kang et al.

Auch die Skalierung von Modellen und Trainingsdaten hilft laut der Studie nur bedingt. Zwar verbessert sich die Leistung bei bekannten Mustern und neuen Kombinationen, aber das grundsätzliche Problem, die physikalischen Gesetze zu verstehen und damit außerhalb der Trainingsdaten zu agieren, bleibt bestehen.

Kang sieht dennoch Potenzial für begrenzte Weltmodelle: "Wenn es ein bestimmtes Szenario gibt und die Datenbasis gut genug ist, wäre ein überangepasstes Weltmodell möglich", sagt der Forscher.

Zwischen Anspruch und Wirklichkeit

Diese Feststellung ist im Kontext der Pläne von OpenAI für das Videomodell Sora interessant. Das Unternehmen bezeichnet Sora als "GPT-1 für Video" und plant, es durch weitere Skalierung zu einem echten Weltmodell weiterzuentwickeln. OpenAI sieht in Sora bereits ein grundlegendes Verständnis für physische Interaktionen und 3D-Geometrie. Auch das Video-Start-up RunwayML arbeitet an so einem Weltmodell, ebenso wie Google Deepmind und weitere.

Die neue Studie dämpft diese Erwartungen jedoch deutlich. "Unsere Ergebnisse zeigen, dass simples Hochskalieren nicht ausreicht, um fundamentale physikalische Gesetze zu entdecken", schreiben die Forscher.

Metas KI-Chef Yann LeCun teilt diese Skepsis. Er hält den Ansatz, die Welt durch Pixelgenerierung vorherzusagen, für "verschwenderisch und zum Scheitern verurteilt".

Viele würden sich freuen, wenn OpenAI Sora endlich als Videogenerator veröffentlichen würde, als der er Mitte Februar 2024 vorgestellt wurde.

Quelle: Paper

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren