Inhalt
summary Zusammenfassung

Ein Forscherteam um Metas KI-Chef Yann LeCun zeigt, wie KI-Systeme allein durch das Betrachten von Videos ein grundlegendes Verständnis physikalischer Gesetze entwickeln können. Die Ergebnisse unterstützen LeCuns Vision einer Alternative zur generativen KI und untermauern seine Kritik an Modellen wie OpenAIs Sora.

Anzeige

Künstliche Intelligenz kann durch selbstüberwachtes Training an natürlichen Videos ein intuitives Verständnis physikalischer Gesetze entwickeln. Das zeigt eine neue Studie von Forschern von Metas FAIR, der Universität Gustave Eiffel und der EHESS. Die Ergebnisse stützen laut dem Team die These, dass KI-Systeme auch ohne vorprogrammierte Regeln grundlegende Konzepte der physischen Welt erlernen können.

Das KI-Modelle des Teams wurde mit Videos trainiert, wobei es lernte, verdeckte oder fehlende Teile der Videos vorherzusagen. Anders als generative KI-Modelle wie OpenAIs Sora nutzen die Forscher dafür allerdings die sogenannte Video Joint Embedding Predictive Architecture (V-JEPA), die Vorhersagen nicht auf Pixelebene, sondern in einem abstrakten Repräsentationsraum trifft. Statt jedes Detail eines Videos vorherzusagen, lernt das System so übergeordnete Konzepte - in der Vision von LeCun eine Annäherung an die Funktionsweise des menschlichen Gehirns.

Eine weitere Besonderheit: Das Team nutzte für die Evaluierung der Modelle das "Violation-of-Expectation"-Paradigma - eine Methode, die ursprünglich aus der Entwicklungspsychologie stammt und das Physikverständnis von Säuglingen testet. Bei diesem Ansatz werden Probanden zwei ähnliche Szenen gezeigt, von denen eine physikalisch unmöglich ist - etwa ein Ball, der durch eine Wand rollt. Die Überraschungsreaktion auf solche Verstöße gegen Naturgesetze gibt Aufschluss darüber, ob grundlegende physikalische Konzepte verstanden wurden.

Anzeige
Anzeige

Besseres Physikverständnis als große Sprachmodelle

Die Forscher testeten das System mit drei verschiedenen Datensätzen: IntPhys für grundlegende Physikkonzepte, GRASP für komplexere Interaktionen und InfLevel für Tests in realistischen Umgebungen. V-JEPA zeigte dabei ein besonders gutes Verständnis für Objektpermanenz, räumliche Kontinuität und Formkonstanz. Große multimodale Sprachmodelle wie Gemini 1.5 Pro oder Qwen2-VL-72B lagen dagegen kaum über der Zufallsrate.

Bemerkenswert ist auch, dass V-JEPA diese Leistung bereits mit relativ wenig Trainingsmaterial erreichte. Schon 128 Stunden Videomaterial reichten aus, um grundlegende physikalische Konzepte zu erlernen. Auch kleinere Modelle mit nur 115 Millionen Parametern zeigten gute Ergebnisse.

Wissenschaftliche Grafik mit drei Teilen: Balkendiagramm zur Modellleistung, Architekturdiagramm der V-JEPA-Methode und Verlaufskurve der Überraschungsmetrik.
Die neue KI-Methode V-JEPA zeigt die beste Leistung beim Verständnis intuitiver Physik in Videos. Das System lernt Bewegungsmuster zu erkennen und kann physikalisch unplausible Ereignisse mit hoher Genauigkeit identifizieren - ein wichtiger Schritt in Richtung KI mit echtem Weltverständnis. | Bild: Garrido et al.

Teil einer größeren Vision für die KI-Entwicklung

Die Ergebnisse stellen laut dem Forscherteam eine wichtige Annahme der KI-Forschung infrage: Bisher ging man davon aus, dass KI-Systeme ein vorprogrammiertes "Kernwissen" über physikalische Gesetze benötigen. V-JEPA demonstriert jedoch, dass dieses Wissen auch durch reines Beobachten erworben werden kann - ähnlich wie bei Säuglingen, Primaten oder sogar Küken, bei denen ein grundlegendes Physikverständnis ebenfalls früh nachweisbar ist.

Die Studie ist Teil von Metas breiter angelegter Forschung an der JEPA-Architektur. Diese soll eine Alternative zu generativen KI-Modellen wie GPT-4o oder Sora bieten. Meta-KI-Chef LeCun sieht in der pixel-genauen Generierung, wie sie etwa Sora betreibt, eine "Sackgasse" für die Entwicklung echter KI-Intelligenz.

Stattdessen setzt LeCun auf hierarchisch gestapelte JEPA-Module, die Vorhersagen auf verschiedenen Abstraktionsebenen treffen. Das Ziel sind umfassende Weltmodelle, die autonomen KI-Systemen ein tieferes Verständnis ihrer Umwelt ermöglichen sollen. Vor Videos hatte das Team um LeCun bereits erste Experimente mit einer Bildvariante namens I-JEPA durchgeführt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von Metas FAIR, der Universität Gustave Eiffel und der EHESS zeigen, dass KI-Systeme durch selbstüberwachtes Training an Videos ein intuitives Verständnis physikalischer Gesetze entwickeln können, ohne vorprogrammierte Regeln zu benötigen.
  • Das Team nutzte die Video Joint Embedding Predictive Architecture (V-JEPA), die Vorhersagen in einem abstrakten Repräsentationsraum trifft. Bei Tests mit dem "Violation-of-Expectation"-Paradigma zeigte V-JEPA ein besseres Physikverständnis als große Sprachmodelle.
  • Die Ergebnisse sind Teil von Metas Forschung an der JEPA-Architektur, die eine Alternative zu generativen KI-Modellen bieten soll. Das Ziel sind umfassende Weltmodelle, die autonomen KI-Systemen ein tieferes Verständnis ihrer Umwelt ermöglichen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!