Anzeige
Skip to content

Yann LeCun präsentiert LeJEPA, vermutlich sein Abschiedsprojekt bei Meta

Image description
Midjourney prompted by THE DECODER

Kurz & Knapp

  • Metas Yann LeCun und Randall Balestriero von Meta präsentieren LeJEPA, ein Lernverfahren für selbstüberwachte KI ohne komplexe Stabilisierungstricks.
  • Die Methode nutzt SIGReg, um Merkmalsverteilungen automatisch zu regulieren und Trainingsverfahren zu vereinfachen.
  • In Tests zeigte LeJEPA stabiles Lernverhalten und hohe Leistung.

Yann LeCun und Randall Balestriero von Meta stellen mit LeJEPA ein neues Lernverfahren vor. Es soll selbstüberwachtes Lernen ohne komplizierte Tricks ermöglichen.

Selbstüberwachtes Lernen gilt als Schlüsseltechnologie moderner KI. Doch von Meta entwickelte Methoden wie DINO oder iJEPA arbeiten mit vielen technischen Hilfstricks, um Fehler beim Training zu vermeiden. Laut einer Studie von LeCun und Balestriero will LeJEPA dieses Problem an der Wurzel packen. Es ist das letzte Paper, an dem LeCun bei Meta beteiligt sein wird.

LeJEPA steht für „Latent-Euclidean Joint-Embedding Predictive Architecture“ und soll unter anderem das Training von LeCuns JEPA-Architektur einfacher machen. Dahinter steckt die Idee, dass KI-Modelle ohne komplexe Zusatzverfahren trainiert werden können, wenn man ihre inneren Repräsentationen auf einer soliden theoretischen Grundlage aufbaut.

Die Forscher weisen nach, dass die besten internen Darstellungen eines Modells einer sogenannten isotropen Gauß-Verteilung folgen sollten – also einer Normalverteilung, bei der die gelernten Merkmale gleichmäßig um den Mittelpunkt herum verteilt sind und in alle Richtungen ähnlich streuen. Ein solches Verteilungsmuster sorge dafür, dass das Modell robuste und ausgewogene Merkmale lernt, was zu verlässlicheren Ergebnissen bei späteren Aufgaben führt.

Anzeige
DEC_D_Incontent-1

Wie JEPAs funktionieren

Das von LeCun entwickelte JEPA-Modell erhält verschiedene „Ansichten“ derselben Information – etwa zwei leicht unterschiedliche Bildausschnitte, Ausschnitte eines Videos oder Tonsegmente. Ziel ist es, dass das Modell diese unterschiedlichen Eingaben so verarbeitet, dass ihre inneren Merkmalsdarstellungen möglichst ähnlich werden, wenn sie semantisch denselben Inhalt haben.

Das Modell lernt also, aus rohen Beobachtungen zu schließen, welche Informationen relevant und wiedererkennbar sind, ohne dass menschliche Labels nötig sind. Es trainiert, Vorhersagen über nicht sichtbare oder veränderte Teile der Daten zu treffen – basierend auf dem, was es bereits erkennt, ähnlich wie ein Mensch, der ein teilweise verdecktes Objekt anhand seiner Form oder Textur wiedererkennt.

Damit verankert das JEPA-Prinzip auch die Idee des „predictive learning“: Das Modell sagt nicht einfach Daten voraus, sondern es soll lernen, die zugrunde liegenden Strukturen und Zusammenhänge der Welt in einem mathematisch kontrollierten Raum zu repräsentieren. Für LeCun ist JEPA daher zentraler Baustein auf dem Weg zu menschenähnlicher Intelligenz und Transformern überlegen.

SIGReg stabilisiert Training ohne Hilfstricks

Um die ideale Verteilung tatsächlich zu erzeugen, entwickelten die Forscher eine neue Regularisierungsmethode namens „Sketched Isotropic Gaussian Regularization“ (SIGReg). Sie vergleicht die tatsächliche Verteilung der Embeddings mit der gewünschten, theoretisch optimalen Verteilung und korrigiert Abweichungen mathematisch sauber.

Anzeige
DEC_D_Incontent-2

SIGReg ersetzt viele gängige Trainingstricks – etwa Stop-Gradient-Methoden, Teacher-Student-Netze oder komplizierte Lernratensteuerungen. Laut der Studie hat der Algorithmus eine lineare Laufzeit, benötigt wenig Speicher, lässt sich leicht auf mehrere GPUs verteilen und funktioniert mit nur einer einstellbaren Kennzahl. Die gesamte Kernimplementierung umfasst nach Angaben der Autoren gerade einmal rund 50 Zeilen Code.

Einfache Theorie, starke Ergebnisse

Laut den Forschern funktioniert LeJEPA so ohne aufwändige Zusatzmechanismen, bleibt auch auf großen Datensätzen stabil und erreicht konkurrenzfähige Genauigkeiten.

In Tests mit über 60 Modellen – darunter ResNets, ConvNeXTs und Vision-Transformer – zeigte LeJEPA stets sauberes Lernverhalten und hohe Genauigkeit. Auf ImageNet-1K erzielte ein ViT-H/14-Modell rund 79 Prozent Top‑1‑Genauigkeit bei linearer Auswertung. Auf Spezialdatensätzen wie Galaxy10, das Galaxienbilder enthält, übertraf LeJEPA große, vortrainierte Modelle wie DINOv2 und DINOv3 – laut dem Team ein Hinweis darauf, dass theoretisch gut fundierte Verfahren spezialisierte Aufgaben oft besser lösen können als riesige, mit traditionellen Ansätzen breit trainierte Modelle.

Quelle: Arxiv