Inhalt
summary Zusammenfassung

Eine neue Studie von Bytedance Research und der Tsinghua University zeigt: Aktuelle Video-KI-Modelle wie OpenAIs Sora können zwar beeindruckende Bilder erzeugen, verstehen die physikalischen Gesetze dahinter aber nicht.

Anzeige

Video-KI-Modelle wie OpenAIs Sora sollen eines Tages die reale Welt simulieren können und so dafür sorgen, dass sich KI besser in der Realität zurechtfindet.

Aber wie gut verstehen sie die physikalischen Gesetze? Wissenschaftler der Tsinghua-Universität und von Bytedance Research testeten die Weltmodellfähigkeiten von Videogeneratoren in drei Szenarien: Vorhersagen innerhalb bekannter Muster (In-Distribution), außerhalb bekannter Muster (Out-of-Distribution) und mit neuen Kombinationen bekannter Elemente.

Ziel der Studie war es, herauszufinden, ob diese Modelle wirklich physikalische Gesetze lernen oder nur Muster aus den Trainingsdaten nachahmen.

Anzeige
Anzeige

Perfekt bei bekannten Mustern, Versagen bei Neuem

Die Forscher fanden heraus, dass die Modelle keine universellen Regeln lernen. Stattdessen orientieren sie sich an oberflächlichen Merkmalen der Trainingsdaten. Dabei folgen sie einer klaren Hierarchie: Die Farbe eines Objekts hat höchste Priorität, gefolgt von Größe, Geschwindigkeit und Form.

Die Ergebnisse zeigen ein klares Muster: Bei bekannten Szenarien funktionieren die Modelle nahezu perfekt. Sobald sie jedoch mit unbekannten Situationen konfrontiert werden, versagen sie - auch wenn es sich um simple physikalische Vorgänge wie gradlinige Bewegungen oder Kollisionen handelt.

Mitautor Bingyi Kang verdeutlicht die Ergebnisse an einem konkreten Beispiel: "Wenn wir das Modell mit Bällen trainieren, die sich mit hoher Geschwindigkeit von links nach rechts und und von rechts nach links bewegen, und es dann mit langsamen Bällen testen, können diese plötzlich nach den ersten Bildern ihre Richtung ändern", erklärt er auf X (im Video ab 1:55).

Video: Kang et al.

Auch die Skalierung von Modellen und Trainingsdaten hilft laut der Studie nur bedingt. Zwar verbessert sich die Leistung bei bekannten Mustern und neuen Kombinationen, aber das grundsätzliche Problem, die physikalischen Gesetze zu verstehen und damit außerhalb der Trainingsdaten zu agieren, bleibt bestehen.

Empfehlung

Kang sieht dennoch Potenzial für begrenzte Weltmodelle: "Wenn es ein bestimmtes Szenario gibt und die Datenbasis gut genug ist, wäre ein überangepasstes Weltmodell möglich", sagt der Forscher.

Zwischen Anspruch und Wirklichkeit

Diese Feststellung ist im Kontext der Pläne von OpenAI für das Videomodell Sora interessant. Das Unternehmen bezeichnet Sora als "GPT-1 für Video" und plant, es durch weitere Skalierung zu einem echten Weltmodell weiterzuentwickeln. OpenAI sieht in Sora bereits ein grundlegendes Verständnis für physische Interaktionen und 3D-Geometrie. Auch das Video-Start-up RunwayML arbeitet an so einem Weltmodell, ebenso wie Google Deepmind und weitere.

Die neue Studie dämpft diese Erwartungen jedoch deutlich. "Unsere Ergebnisse zeigen, dass simples Hochskalieren nicht ausreicht, um fundamentale physikalische Gesetze zu entdecken", schreiben die Forscher.

Metas KI-Chef Yann LeCun teilt diese Skepsis. Er hält den Ansatz, die Welt durch Pixelgenerierung vorherzusagen, für "verschwenderisch und zum Scheitern verurteilt".

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Viele würden sich freuen, wenn OpenAI Sora endlich als Videogenerator veröffentlichen würde, als der er Mitte Februar 2024 vorgestellt wurde.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine neue Studie von Bytedance Research und der Tsinghua University zeigt, dass aktuelle Video-KI-Modelle wie OpenAIs Sora zwar beeindruckende Bilder erzeugen können, die physikalischen Gesetze dahinter aber nicht verstehen.
  • Die Forscher testeten die Modelle in drei Szenarien und fanden heraus, dass sie keine universellen Regeln lernen, sondern sich an oberflächlichen Merkmalen der Trainingsdaten orientieren. Bei unbekannten Situationen versagen sie, auch wenn es sich um simple physikalische Vorgänge handelt.
  • Die Forscher betonen, dass simples Hochskalieren nicht ausreicht, um fundamentale physikalische Gesetze zu entdecken. Die Ergebnisse dämpfen die Erwartungen an Videomodelle wie Sora, die zu echten Weltmodellen weiterentwickelt werden sollen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!