Meta hat ein neues KI-Modell vorgestellt, die Video Joint Embedding Predictive Architecture (V-JEPA). Es ist Teil der Meta-Forschung zur JEPA-Architektur, die KI helfen soll, die physische Welt zu verstehen und mit ihr zu interagieren.
V-JEPA wurde von Yann LeCun, Metas VP & Chief AI Scientist, und seinem Team entwickelt, um komplexe Interaktionen in Videos vorherzusagen und zu verstehen. Das Modell ergänzt fehlende oder verdeckte Teile eines Videos, indem es nicht jedes einzelne Pixel rekonstruiert, sondern eine abstrakte Darstellung der Szene dekodiert, die laut Meta der Verarbeitung von Bildern in unserem Kopf ähnelt.
Die Idee hinter V-JEPA ist, dass diese Vorhersagen in einem übergeordneten konzeptuellen Raum es dem System ermöglichen, sich auf das zu konzentrieren, was für das Verständnis und die Ausführung von Aufgaben wichtig ist, ohne sich in irrelevanten Details zu verlieren. Wenn das Modell etwa einen Baum in einem Video analysiert, muss es nicht die Bewegung der einzelnen Blätter berücksichtigen.
Beim Training des Modells wird daher eine Maskierungsmethode verwendet, bei der wichtige Teile eines Videos ausgeblendet werden. Dadurch wird V-JEPA gezwungen, die Dynamik der Szene zu erlernen, indem es vorhersagt, was in Raum und Zeit geschieht. Diese Maskierung ist nicht zufällig, sondern sorgfältig geplant, um sicherzustellen, dass das Modell versteht, wie Objekte interagieren. Das Modell wurde mit 2 Millionen Videos trainiert.
Eine der Stärken des Modells ist seine Fähigkeit, sich an neue Aufgaben anzupassen, ohne dass das Kernmodell neu trainiert werden muss. Traditionell müssen KI-Modelle fein abgestimmt werden. Im Gegensatz dazu kann V-JEPA einmal vortrainiert werden und dann einfach eine kleine aufgabenspezifische Schicht dem Netzwerk hinzufügen, um sich an verschiedene Aufgaben anzupassen, wie z.B. die Klassifizierung von Handlungen oder die Erkennung von Objektinteraktionen.
Für die Zukunft sieht das Meta-Team das Potenzial, die Fähigkeiten von V-JEPA auf Audio auszuweiten und seine Planungs- und Vorhersagefähigkeiten über längere Zeiträume zu verbessern. Während V-JEPA derzeit bei der kurzfristigen Erkennung von Handlungen hervorragend abschneidet, ist die längerfristige Vorhersage ein Bereich für weitere Forschung.
Der JEPA von LeCun hat weiterreichende Ziele
LeCun stellte 2022 die JEPA-Architektur vor, um aus komplexen Daten zu lernen und Vorhersagen auf verschiedenen Abstraktionsebenen zu treffen. Im Jahr 2023 stellte sein Team das erste Modell, I-JEPA, vor, das in ImageNet beeindruckende Ergebnisse mit einem Minimum an beschrifteten Daten erzielte.
Über ihre derzeitigen Fähigkeiten hinaus hat die Joint Embedding Predictive Architecture (JEPA) weitergehende Ambitionen, um umfassende Weltmodelle zu ermöglichen, die eine autonome künstliche Intelligenz unterstützen könnten. LeCun stellt sich eine hierarchische Stapelung von JEPA-Modellen vor, um hochgradige Abstraktionen von Vorhersagen auf niedrigerer Ebene zu erzeugen. Letztendlich sollen diese Modelle einmal in einem komplexen KI-System räumliche und zeitliche Vorhersagen über zukünftige Ereignisse liefern, wobei Videotraining eine wichtige Rolle spielt.
Der Code ist auf GitHub verfügbar.