Inhalt
summary Zusammenfassung

Meta hat ein neues KI-Modell vorgestellt, die Video Joint Embedding Predictive Architecture (V-JEPA). Es ist Teil der Meta-Forschung zur JEPA-Architektur, die KI helfen soll, die physische Welt zu verstehen und mit ihr zu interagieren.

Anzeige

V-JEPA wurde von Yann LeCun, Metas VP & Chief AI Scientist, und seinem Team entwickelt, um komplexe Interaktionen in Videos vorherzusagen und zu verstehen. Das Modell ergänzt fehlende oder verdeckte Teile eines Videos, indem es nicht jedes einzelne Pixel rekonstruiert, sondern eine abstrakte Darstellung der Szene dekodiert, die laut Meta der Verarbeitung von Bildern in unserem Kopf ähnelt.

Die Idee hinter V-JEPA ist, dass diese Vorhersagen in einem übergeordneten konzeptuellen Raum es dem System ermöglichen, sich auf das zu konzentrieren, was für das Verständnis und die Ausführung von Aufgaben wichtig ist, ohne sich in irrelevanten Details zu verlieren. Wenn das Modell etwa einen Baum in einem Video analysiert, muss es nicht die Bewegung der einzelnen Blätter berücksichtigen.

Video: Meta

Anzeige
Anzeige

Beim Training des Modells wird daher eine Maskierungsmethode verwendet, bei der wichtige Teile eines Videos ausgeblendet werden. Dadurch wird V-JEPA gezwungen, die Dynamik der Szene zu erlernen, indem es vorhersagt, was in Raum und Zeit geschieht. Diese Maskierung ist nicht zufällig, sondern sorgfältig geplant, um sicherzustellen, dass das Modell versteht, wie Objekte interagieren. Das Modell wurde mit 2 Millionen Videos trainiert.

Eine der Stärken des Modells ist seine Fähigkeit, sich an neue Aufgaben anzupassen, ohne dass das Kernmodell neu trainiert werden muss. Traditionell müssen KI-Modelle fein abgestimmt werden. Im Gegensatz dazu kann V-JEPA einmal vortrainiert werden und dann einfach eine kleine aufgabenspezifische Schicht dem Netzwerk hinzufügen, um sich an verschiedene Aufgaben anzupassen, wie z.B. die Klassifizierung von Handlungen oder die Erkennung von Objektinteraktionen.

Für die Zukunft sieht das Meta-Team das Potenzial, die Fähigkeiten von V-JEPA auf Audio auszuweiten und seine Planungs- und Vorhersagefähigkeiten über längere Zeiträume zu verbessern. Während V-JEPA derzeit bei der kurzfristigen Erkennung von Handlungen hervorragend abschneidet, ist die längerfristige Vorhersage ein Bereich für weitere Forschung.

Der JEPA von LeCun hat weiterreichende Ziele

LeCun stellte 2022 die JEPA-Architektur vor, um aus komplexen Daten zu lernen und Vorhersagen auf verschiedenen Abstraktionsebenen zu treffen. Im Jahr 2023 stellte sein Team das erste Modell, I-JEPA, vor, das in ImageNet beeindruckende Ergebnisse mit einem Minimum an beschrifteten Daten erzielte.

Über ihre derzeitigen Fähigkeiten hinaus hat die Joint Embedding Predictive Architecture (JEPA) weitergehende Ambitionen, um umfassende Weltmodelle zu ermöglichen, die eine autonome künstliche Intelligenz unterstützen könnten. LeCun stellt sich eine hierarchische Stapelung von JEPA-Modellen vor, um hochgradige Abstraktionen von Vorhersagen auf niedrigerer Ebene zu erzeugen. Letztendlich sollen diese Modelle einmal in einem komplexen KI-System räumliche und zeitliche Vorhersagen über zukünftige Ereignisse liefern, wobei Videotraining eine wichtige Rolle spielt.

Empfehlung

Der Code ist auf GitHub verfügbar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die KI-Forschungsgruppe von Meta hat die Video Joint Embedding Predictive Architecture (V-JEPA) vorgestellt, die das Verständnis der KI für die physische Welt durch Videoanalyse verbessern soll. Das Modell, das unter der Leitung des leitenden KI-Forschers Yann LeCun entwickelt wurde, ist in der Lage, komplexe Interaktionen vorherzusagen und zu interpretieren, indem es verdeckte Teile von Videos ergänzt.
  • Laut Meta funktioniert V-JEPA, indem es Vorhersagen in einem größeren konzeptuellen Raum trifft, anstatt sich auf winzige Details zu konzentrieren, wie es bei der menschlichen kognitiven Bildverarbeitung der Fall ist. So erkennt das System beispielsweise einen Baum, ohne die Bewegung der einzelnen Blätter zu analysieren. Beim Training kommt eine Maskierungstechnik zum Einsatz, bei der Teile eines Videos ausgeblendet werden, um der KI die Dynamik und Interaktion von Objekten zu vermitteln.
  • Die Architektur ermöglicht es V-JEPA, sich an verschiedene Aufgaben anzupassen, indem eine kleine, aufgabenspezifische Schicht hinzugefügt wird, anstatt das gesamte Modell neu zu trainieren. Diese Flexibilität ist ein großer Fortschritt gegenüber herkömmlichen KI-Modellen. Das Meta-Team plant, die Fähigkeiten von V-JEPA zu erweitern und die Langzeitvorhersage zu verbessern, mit dem übergeordneten Ziel, umfassende Weltmodelle für autonome KI-Systeme zu entwickeln.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!