Inhalt
summary Zusammenfassung

Mit V-JEPA 2 präsentiert Meta ein 1,2-Milliarden-Parameter-Videomodell, das physikalisches Weltverständnis mit Robotersteuerung verbindet. Das Modell erreicht State-of-the-Art-Ergebnisse bei Bewegungserkennung und Aktionsvorhersage – und kann Roboter ohne zusätzliches Training steuern.

Anzeige

Wenn wir einen Tennisball in die Luft werfen, wissen wir intuitiv, dass er wieder herunterfallen wird. Diese Art von physikalischem Verständnis entwickeln Menschen schon als Kleinkinder – lange bevor sie sprechen können. Meta hat nun mit V-JEPA 2 ein KI-Modell vorgestellt, das ein ähnliches Verständnis der physikalischen Welt entwickeln soll.

Das 1,2 Milliarden Parameter große Modell basiert auf der Joint Embedding Predictive Architecture (JEPA), die Meta-Chefwissenschaftler Yann LeCun als zentralen Baustein für fortgeschrittene maschinelle Intelligenz betrachtet. Im Gegensatz zu anderen "Weltmodellen" wie OpenAIs Videogenerator Sora oder großen Sprachmodellen verfolgt V-JEPA 2 - wie der Vorgänger V-JEPA - einen fundamental anderen Ansatz.

"Weltmodelle sollen KI-Agenten befähigen, in der physischen Welt zu planen und zu schlussfolgern", heißt es im technischen Bericht. Dabei unterscheidet LeCun klar zwischen seinem JEPA-Ansatz und generativen Modellen: Während Sora oder Sprachmodelle versuchen, jedes Detail pixel- oder wortgenau vorherzusagen, konzentriert sich JEPA auf das Wesentliche – die vorhersagbaren Aspekte einer Szene. LeCun bezeichnete generative KI-Modelle wie Sora als eine Sackgasse auf dem Weg zu maschineller Intelligenz.

Anzeige
Anzeige

Lernen durch Beobachtung statt Pixelgenerierung

Der entscheidende Unterschied liegt in der Architektur: V-JEPA 2 arbeitet nicht im Pixelraum, sondern in einem gelernten Repräsentationsraum. Das Modell muss nicht vorhersagen, wo jedes einzelne Blatt an einem Baum sein wird oder wie genau die Schatten fallen. Stattdessen lernt es abstrakte Konzepte wie "der Ball wird fallen" oder "das Objekt bewegt sich nach links".

Diese Abstraktion macht das System effizienter und robuster. Ein generatives Modell wie Sora verschwendet Rechenleistung darauf, unwichtige visuelle Details zu erzeugen. V-JEPA 2 hingegen fokussiert sich auf die für Planung und Kontrolle relevanten Informationen. Das zeigt sich auch in der Praxis: Für die Planung einer Roboteraktion benötigt V-JEPA 2 nur 16 Sekunden, während das generative Cosmos-Modell von Nvidia 4 Minuten braucht.

Zweistufiges Training mit minimalem Roboterdatenbedarf

Das Training von V-JEPA 2 erfolgt in zwei klar getrennten Phasen. In der ersten Phase lernt das Modell aus über einer Million Stunden Video und einer Million Bildern - ohne menschliche Anleitung. Der Datensatz ist dabei sorgfältig kuratiert und enthält verschiedene Perspektiven: Videos aus der Ich-Perspektive, Aufnahmen von Aktionen aus der Außenperspektive, Tutorial-Videos und gefilterte YouTube-Inhalte.

Die technische Umsetzung nutzt einen leistungsfähigen "Encoder" mit 1 Milliarde Parametern, der Videos in abstrakte Repräsentationen übersetzt. Eine Besonderheit ist dabei, wie das Modell lernt: Teile der Videos werden ausgeblendet, und ein "Predictor" muss vorhersagen, was in diesen Lücken passiert - allerdings nicht auf Pixelebene, sondern in Form abstrakter Konzepte. Das System lernt so, die wichtigen und vorhersagbaren Aspekte einer Szene zu erfassen.

In der zweiten Phase kommt die Robotersteuerung hinzu. Bemerkenswert ist, dass dafür nur 62 Stunden Roboterdaten aus einem öffentlichen Datensatz benötigt werden. Ein spezieller Predictor lernt dabei, wie Roboter-Aktionen die Welt verändern werden - basierend auf den bereits gelernten Repräsentationen. Zum Vergleich: Andere Robotik-KI-Systeme brauchen oft tausende Stunden spezifischer Trainingsdaten und müssen für jede neue Umgebung neu trainiert werden.

Empfehlung

Video: Meta

Beeindruckende Leistung bei verschiedenen Aufgaben

V-JEPA 2 beweist seine Fähigkeiten in verschiedenen standardisierten Tests. Beim Something-Something v2 Datensatz muss das Modell komplexe Bewegungen und Interaktionen erkennen - zum Beispiel "etwas von links nach rechts bewegen" oder "einen Behälter umdrehen und ausleeren". Mit einer Genauigkeit von 77,3 Prozent übertrifft V-JEPA 2 hier andere führende Videomodelle deutlich.

Besonders deutlich ist die Leistung bei der Vorhersage zukünftiger Aktionen: Im Epic-Kitchens-100 Test, der Alltagshandlungen in der Küche zeigt, kann das Modell eine Sekunde im Voraus mit 39,7 Prozent Trefferquote vorhersagen, welche Aktion als nächstes kommt - zum Beispiel "Zwiebel schneiden" oder "Topf auf den Herd stellen". Das ist eine Verbesserung von 44 Prozent gegenüber bisherigen Systemen. Wenn man das Modell zusätzlich mit einem Sprachmodell kombiniert, kann es auch komplexe Fragen zu Videoaufnahmen beantworten und erreicht dabei Bestwerte in verschiedenen Vergleichstests.

Vom Videoverständnis zur Robotersteuerung

Die eigentliche Innovation zeigt sich aber im praktischen Einsatz. Meta testete V-JEPA 2 an echten Robotern. Das Besondere dabei: Das Modell wurde nur mit dem öffentlich verfügbaren DROID-Datensatz trainiert - einer Sammlung von Videoaufnahmen verschiedener Roboterbewegungen. Ohne weiteres Training konnte das System dann zwei verschiedene Franka-Roboterarme in völlig neuen Laborumgebungen steuern. Bei Aufgaben wie dem Greifen einer Tasse oder dem Aufheben und Platzieren von Objekten erreichte es Erfolgsraten zwischen 65 und 80 Prozent.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Video: Meta

Die Steuerung funktioniert dabei wie folgt: Der Roboter bekommt ein Foto des Zielzustands gezeigt - zum Beispiel eine Tasse, die an einer bestimmten Stelle stehen soll. V-JEPA 2 plant dann schrittweise, wie es dieses Ziel erreichen kann. Dafür simuliert es verschiedene mögliche Bewegungen in seinem gelernten Verständnis der physikalischen Welt und wählt die vielversprechendste aus. Nach jeder ausgeführten Bewegung schaut das System, wo es jetzt steht, und plant die nächsten Schritte neu.

Neue Benchmarks offenbaren Lücke zum menschlichen Physikverständnis

Meta veröffentlicht parallel zu V-JEPA 2 drei neue Benchmarks, die systematisch testen, wie gut KI-Systeme die physikalische Welt wirklich verstehen. Der erste Test, IntPhys 2, ist von entwicklungspsychologischen Experimenten inspiriert: Er zeigt Videopaare, bei denen in einem Video physikalische Gesetze verletzt werden – etwa ein Ball, der plötzlich nach oben statt nach unten fällt. Während Menschen solche Unmöglichkeiten sofort erkennen, liegen selbst modernste KI-Modelle, einschließlich V-JEPA 2, hier kaum über dem Zufallsniveau.

Der zweite Benchmark, MVPBench (Minimal Video Pairs), geht noch einen Schritt weiter. Er verwendet geschickt konstruierte Videopaare: Zwei visuell sehr ähnliche Videos, die aber zu gegensätzlichen Antworten auf dieselbe Frage führen. Dieser Ansatz verhindert, dass Modelle über oberflächliche visuelle oder sprachliche Hinweise zu ihrer Antwort kommen. Hier zeigt V-JEPA 2 mit 44,5 Prozent "Paired Accuracy" zwar die beste Leistung aller getesteten Systeme – deutlich vor dem bisherigen Spitzenreiter InternVL-2.5 mit 39,9 Prozent – aber auch das ist noch weit von menschlicher Performance entfernt.

Der dritte Test, CausalVQA, untersucht das kausale Verständnis physikalischer Vorgänge. Die Modelle müssen dabei nicht nur beschreiben, was in einem Video passiert, sondern auch kontrafaktische Fragen beantworten ("Was wäre passiert, wenn..."), zukünftige Ereignisse vorhersagen und Handlungsempfehlungen geben. Die Ergebnisse zeigen ein klares Muster: Während aktuelle KI-Systeme gut darin sind zu beschreiben, was sie sehen, haben sie große Schwierigkeiten damit, mögliche alternative Verläufe oder zukünftige Entwicklungen vorherzusagen.

Hierarchische Modelle als nächster Schritt

Trotz der Erfolge gibt es noch Herausforderungen. V-JEPA 2 hat Schwierigkeiten mit langfristiger Planung – es kann gut die nächsten Sekunden vorhersagen, aber keine komplexen mehrstufigen Aufgaben planen. Auch ist das System empfindlich gegenüber der Kameraposition, was in der Praxis zu Problemen führen kann.

Anzeige
Anzeige

Metas Vision für die Zukunft sind hierarchische Modelle, die auf verschiedenen Zeitskalen planen können – vom Bruchteil einer Sekunde bis zu Minuten oder Stunden. Auch die Integration weiterer Sinne wie Ton oder Tastsinn steht auf der Agenda.

Das Team um LeCun geht mit JEPA einen anderen Weg als viele andere Tech-Riesen. Gleichzeitig gibt aber auch Meta generative KI als Weg zu Superintelligenz nicht auf: Mark Zuckerberg rekrutiert gerade ein Team, das sich auf diese Forschung und Entwicklung konzentrieren soll.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta stellt mit V-JEPA 2 ein Videomodell mit 1,2 Milliarden Parametern vor, das physikalisches Weltverständnis entwickelt und Roboter mit minimalen Trainingsdaten direkt steuern kann. Es arbeitet in einem abstrakten Repräsentationsraum statt auf Pixelebene und erreicht bei Bewegungserkennung und Aktionsvorhersage Bestwerte.
  • Das Modell wird in zwei Phasen trainiert: Zunächst lernt es aus über einer Million Stunden Videos ohne menschliche Anleitung, anschließend genügen 62 Stunden Roboterdaten für die Steuerung realer Roboterarme in neuen Umgebungen mit Erfolgsraten bis zu 80 Prozent.
  • Neue von Meta veröffentlichte Benchmarks zeigen aber, dass V-JEPA 2 und andere aktuelle KI-Modelle beim tiefen Verständnis physikalischer Gesetzmäßigkeiten noch deutlich hinter Menschen zurückliegen – besonders bei kausalen und kontrafaktischen Aufgaben.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!