Metas V-JEPA ist Yann LeCuns jüngster Vorstoß in die mögliche Zukunft der KI
Kurz & Knapp
- Die KI-Forschungsgruppe von Meta hat die Video Joint Embedding Predictive Architecture (V-JEPA) vorgestellt, die das Verständnis der KI für die physische Welt durch Videoanalyse verbessern soll. Das Modell, das unter der Leitung des leitenden KI-Forschers Yann LeCun entwickelt wurde, ist in der Lage, komplexe Interaktionen vorherzusagen und zu interpretieren, indem es verdeckte Teile von Videos ergänzt.
- Laut Meta funktioniert V-JEPA, indem es Vorhersagen in einem größeren konzeptuellen Raum trifft, anstatt sich auf winzige Details zu konzentrieren, wie es bei der menschlichen kognitiven Bildverarbeitung der Fall ist. So erkennt das System beispielsweise einen Baum, ohne die Bewegung der einzelnen Blätter zu analysieren. Beim Training kommt eine Maskierungstechnik zum Einsatz, bei der Teile eines Videos ausgeblendet werden, um der KI die Dynamik und Interaktion von Objekten zu vermitteln.
- Die Architektur ermöglicht es V-JEPA, sich an verschiedene Aufgaben anzupassen, indem eine kleine, aufgabenspezifische Schicht hinzugefügt wird, anstatt das gesamte Modell neu zu trainieren. Diese Flexibilität ist ein großer Fortschritt gegenüber herkömmlichen KI-Modellen. Das Meta-Team plant, die Fähigkeiten von V-JEPA zu erweitern und die Langzeitvorhersage zu verbessern, mit dem übergeordneten Ziel, umfassende Weltmodelle für autonome KI-Systeme zu entwickeln.
Meta hat ein neues KI-Modell vorgestellt, die Video Joint Embedding Predictive Architecture (V-JEPA). Es ist Teil der Meta-Forschung zur JEPA-Architektur, die KI helfen soll, die physische Welt zu verstehen und mit ihr zu interagieren.
V-JEPA wurde von Yann LeCun, Metas VP & Chief AI Scientist, und seinem Team entwickelt, um komplexe Interaktionen in Videos vorherzusagen und zu verstehen. Das Modell ergänzt fehlende oder verdeckte Teile eines Videos, indem es nicht jedes einzelne Pixel rekonstruiert, sondern eine abstrakte Darstellung der Szene dekodiert, die laut Meta der Verarbeitung von Bildern in unserem Kopf ähnelt.
Die Idee hinter V-JEPA ist, dass diese Vorhersagen in einem übergeordneten konzeptuellen Raum es dem System ermöglichen, sich auf das zu konzentrieren, was für das Verständnis und die Ausführung von Aufgaben wichtig ist, ohne sich in irrelevanten Details zu verlieren. Wenn das Modell etwa einen Baum in einem Video analysiert, muss es nicht die Bewegung der einzelnen Blätter berücksichtigen.
Video: Meta
Beim Training des Modells wird daher eine Maskierungsmethode verwendet, bei der wichtige Teile eines Videos ausgeblendet werden. Dadurch wird V-JEPA gezwungen, die Dynamik der Szene zu erlernen, indem es vorhersagt, was in Raum und Zeit geschieht. Diese Maskierung ist nicht zufällig, sondern sorgfältig geplant, um sicherzustellen, dass das Modell versteht, wie Objekte interagieren. Das Modell wurde mit 2 Millionen Videos trainiert.
Eine der Stärken des Modells ist seine Fähigkeit, sich an neue Aufgaben anzupassen, ohne dass das Kernmodell neu trainiert werden muss. Traditionell müssen KI-Modelle fein abgestimmt werden. Im Gegensatz dazu kann V-JEPA einmal vortrainiert werden und dann einfach eine kleine aufgabenspezifische Schicht dem Netzwerk hinzufügen, um sich an verschiedene Aufgaben anzupassen, wie z.B. die Klassifizierung von Handlungen oder die Erkennung von Objektinteraktionen.
Für die Zukunft sieht das Meta-Team das Potenzial, die Fähigkeiten von V-JEPA auf Audio auszuweiten und seine Planungs- und Vorhersagefähigkeiten über längere Zeiträume zu verbessern. Während V-JEPA derzeit bei der kurzfristigen Erkennung von Handlungen hervorragend abschneidet, ist die längerfristige Vorhersage ein Bereich für weitere Forschung.
Der JEPA von LeCun hat weiterreichende Ziele
LeCun stellte 2022 die JEPA-Architektur vor, um aus komplexen Daten zu lernen und Vorhersagen auf verschiedenen Abstraktionsebenen zu treffen. Im Jahr 2023 stellte sein Team das erste Modell, I-JEPA, vor, das in ImageNet beeindruckende Ergebnisse mit einem Minimum an beschrifteten Daten erzielte.
Über ihre derzeitigen Fähigkeiten hinaus hat die Joint Embedding Predictive Architecture (JEPA) weitergehende Ambitionen, um umfassende Weltmodelle zu ermöglichen, die eine autonome künstliche Intelligenz unterstützen könnten. LeCun stellt sich eine hierarchische Stapelung von JEPA-Modellen vor, um hochgradige Abstraktionen von Vorhersagen auf niedrigerer Ebene zu erzeugen. Letztendlich sollen diese Modelle einmal in einem komplexen KI-System räumliche und zeitliche Vorhersagen über zukünftige Ereignisse liefern, wobei Videotraining eine wichtige Rolle spielt.
Der Code ist auf GitHub verfügbar.
Verpassen Sie keine
aktuellen KI‑Einblicke.
- Unabhängiger Journalismus, der Sie auf dem Laufenden hält.
- Zugang zum Magazinarchiv und zu den Community‑Kommentaren.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.