KI-Videogeneratoren wie Sora verstehen keine Physik und sind daher keine Weltmodelle

Midjourney prompted by THE DECODER

Eine neue Studie von Bytedance Research und der Tsinghua University zeigt: Aktuelle Video-KI-Modelle wie OpenAIs Sora können zwar beeindruckende Bilder erzeugen, verstehen die physikalischen Gesetze dahinter aber nicht.

Video-KI-Modelle wie OpenAIs Sora sollen eines Tages die reale Welt simulieren können und so dafür sorgen, dass sich KI besser in der Realität zurechtfindet.

Aber wie gut verstehen sie die physikalischen Gesetze? Wissenschaftler der Tsinghua-Universität und von Bytedance Research testeten die Weltmodellfähigkeiten von Videogeneratoren in drei Szenarien: Vorhersagen innerhalb bekannter Muster (In-Distribution), außerhalb bekannter Muster (Out-of-Distribution) und mit neuen Kombinationen bekannter Elemente.

Ziel der Studie war es, herauszufinden, ob diese Modelle wirklich physikalische Gesetze lernen oder nur Muster aus den Trainingsdaten nachahmen.

Perfekt bei bekannten Mustern, Versagen bei Neuem

Die Forscher fanden heraus, dass die Modelle keine universellen Regeln lernen. Stattdessen orientieren sie sich an oberflächlichen Merkmalen der Trainingsdaten. Dabei folgen sie einer klaren Hierarchie: Die Farbe eines Objekts hat höchste Priorität, gefolgt von Größe, Geschwindigkeit und Form.

Die Ergebnisse zeigen ein klares Muster: Bei bekannten Szenarien funktionieren die Modelle nahezu perfekt. Sobald sie jedoch mit unbekannten Situationen konfrontiert werden, versagen sie - auch wenn es sich um simple physikalische Vorgänge wie gradlinige Bewegungen oder Kollisionen handelt.

Mitautor Bingyi Kang verdeutlicht die Ergebnisse an einem konkreten Beispiel: "Wenn wir das Modell mit Bällen trainieren, die sich mit hoher Geschwindigkeit von links nach rechts und und von rechts nach links bewegen, und es dann mit langsamen Bällen testen, können diese plötzlich nach den ersten Bildern ihre Richtung ändern", erklärt er auf X (im Video ab 1:55).

Video: Kang et al.

Auch die Skalierung von Modellen und Trainingsdaten hilft laut der Studie nur bedingt. Zwar verbessert sich die Leistung bei bekannten Mustern und neuen Kombinationen, aber das grundsätzliche Problem, die physikalischen Gesetze zu verstehen und damit außerhalb der Trainingsdaten zu agieren, bleibt bestehen.

Empfehlung

KI-Forschung

KI-Agenten übertreffen menschliche Hackerteams in Cybersecurity-Wettbewerben

Kang sieht dennoch Potenzial für begrenzte Weltmodelle: "Wenn es ein bestimmtes Szenario gibt und die Datenbasis gut genug ist, wäre ein überangepasstes Weltmodell möglich", sagt der Forscher.

Zwischen Anspruch und Wirklichkeit

Diese Feststellung ist im Kontext der Pläne von OpenAI für das Videomodell Sora interessant. Das Unternehmen bezeichnet Sora als "GPT-1 für Video" und plant, es durch weitere Skalierung zu einem echten Weltmodell weiterzuentwickeln. OpenAI sieht in Sora bereits ein grundlegendes Verständnis für physische Interaktionen und 3D-Geometrie. Auch das Video-Start-up RunwayML arbeitet an so einem Weltmodell, ebenso wie Google Deepmind und weitere.

Die neue Studie dämpft diese Erwartungen jedoch deutlich. "Unsere Ergebnisse zeigen, dass simples Hochskalieren nicht ausreicht, um fundamentale physikalische Gesetze zu entdecken", schreiben die Forscher.

Metas KI-Chef Yann LeCun teilt diese Skepsis. Er hält den Ansatz, die Welt durch Pixelgenerierung vorherzusagen, für "verschwenderisch und zum Scheitern verurteilt".

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Viele würden sich freuen, wenn OpenAI Sora endlich als Videogenerator veröffentlichen würde, als der er Mitte Februar 2024 vorgestellt wurde.

KI-Videogeneratoren wie Sora verstehen keine Physik und sind daher keine Weltmodelle

Perfekt bei bekannten Mustern, Versagen bei Neuem

KI-Agenten übertreffen menschliche Hackerteams in Cybersecurity-Wettbewerben

Zwischen Anspruch und Wirklichkeit

OpenAI-KI gewinnt Gold bei Informatik-Olympiade

KI-Kritiker Gary Marcus: GPT-5 ist "überfällig, überhyped und unterwältigend"

Nvidia-Forschende plädieren für mehr kleine Modelle in KI-Agenten

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

KI-Videogeneratoren wie Sora verstehen keine Physik und sind daher keine Weltmodelle

Perfekt bei bekannten Mustern, Versagen bei Neuem

Zwischen Anspruch und Wirklichkeit

Artikel teilen

Bankverbindung