Yann LeCun präsentiert LeJEPA, vermutlich sein Abschiedsprojekt bei Meta
Yann LeCun und Randall Balestriero von Meta stellen mit LeJEPA ein neues Lernverfahren vor. Es soll selbstüberwachtes Lernen ohne komplizierte Tricks ermöglichen.
Selbstüberwachtes Lernen gilt als Schlüsseltechnologie moderner KI. Doch von Meta entwickelte Methoden wie DINO oder iJEPA arbeiten mit vielen technischen Hilfstricks, um Fehler beim Training zu vermeiden. Laut einer Studie von LeCun und Balestriero will LeJEPA dieses Problem an der Wurzel packen. Es ist das letzte Paper, an dem LeCun bei Meta beteiligt sein wird.
LeJEPA steht für „Latent-Euclidean Joint-Embedding Predictive Architecture“ und soll unter anderem das Training von LeCuns JEPA-Architektur einfacher machen. Dahinter steckt die Idee, dass KI-Modelle ohne komplexe Zusatzverfahren trainiert werden können, wenn man ihre inneren Repräsentationen auf einer soliden theoretischen Grundlage aufbaut.
Die Forscher weisen nach, dass die besten internen Darstellungen eines Modells einer sogenannten isotropen Gauß-Verteilung folgen sollten – also einer Normalverteilung, bei der die gelernten Merkmale gleichmäßig um den Mittelpunkt herum verteilt sind und in alle Richtungen ähnlich streuen. Ein solches Verteilungsmuster sorge dafür, dass das Modell robuste und ausgewogene Merkmale lernt, was zu verlässlicheren Ergebnissen bei späteren Aufgaben führt.
Wie JEPAs funktionieren
Das von LeCun entwickelte JEPA-Modell erhält verschiedene „Ansichten“ derselben Information – etwa zwei leicht unterschiedliche Bildausschnitte, Ausschnitte eines Videos oder Tonsegmente. Ziel ist es, dass das Modell diese unterschiedlichen Eingaben so verarbeitet, dass ihre inneren Merkmalsdarstellungen möglichst ähnlich werden, wenn sie semantisch denselben Inhalt haben.
Das Modell lernt also, aus rohen Beobachtungen zu schließen, welche Informationen relevant und wiedererkennbar sind, ohne dass menschliche Labels nötig sind. Es trainiert, Vorhersagen über nicht sichtbare oder veränderte Teile der Daten zu treffen – basierend auf dem, was es bereits erkennt, ähnlich wie ein Mensch, der ein teilweise verdecktes Objekt anhand seiner Form oder Textur wiedererkennt.
Damit verankert das JEPA-Prinzip auch die Idee des „predictive learning“: Das Modell sagt nicht einfach Daten voraus, sondern es soll lernen, die zugrunde liegenden Strukturen und Zusammenhänge der Welt in einem mathematisch kontrollierten Raum zu repräsentieren. Für LeCun ist JEPA daher zentraler Baustein auf dem Weg zu menschenähnlicher Intelligenz und Transformern überlegen.
SIGReg stabilisiert Training ohne Hilfstricks
Um die ideale Verteilung tatsächlich zu erzeugen, entwickelten die Forscher eine neue Regularisierungsmethode namens „Sketched Isotropic Gaussian Regularization“ (SIGReg). Sie vergleicht die tatsächliche Verteilung der Embeddings mit der gewünschten, theoretisch optimalen Verteilung und korrigiert Abweichungen mathematisch sauber.
SIGReg ersetzt viele gängige Trainingstricks – etwa Stop-Gradient-Methoden, Teacher-Student-Netze oder komplizierte Lernratensteuerungen. Laut der Studie hat der Algorithmus eine lineare Laufzeit, benötigt wenig Speicher, lässt sich leicht auf mehrere GPUs verteilen und funktioniert mit nur einer einstellbaren Kennzahl. Die gesamte Kernimplementierung umfasst nach Angaben der Autoren gerade einmal rund 50 Zeilen Code.
Einfache Theorie, starke Ergebnisse
Laut den Forschern funktioniert LeJEPA so ohne aufwändige Zusatzmechanismen, bleibt auch auf großen Datensätzen stabil und erreicht konkurrenzfähige Genauigkeiten.
In Tests mit über 60 Modellen – darunter ResNets, ConvNeXTs und Vision-Transformer – zeigte LeJEPA stets sauberes Lernverhalten und hohe Genauigkeit. Auf ImageNet-1K erzielte ein ViT-H/14-Modell rund 79 Prozent Top‑1‑Genauigkeit bei linearer Auswertung. Auf Spezialdatensätzen wie Galaxy10, das Galaxienbilder enthält, übertraf LeJEPA große, vortrainierte Modelle wie DINOv2 und DINOv3 – laut dem Team ein Hinweis darauf, dass theoretisch gut fundierte Verfahren spezialisierte Aufgaben oft besser lösen können als riesige, mit traditionellen Ansätzen breit trainierte Modelle.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.