Vom Face-Plant zu Parkour: Virtuelle Agenten lernen Akrobatik, wenn Forscher immer mehr Netzwerkschichten stapeln

15. März 2026

Nano Banana Pro prompted by THE DECODER

Während gängige Reinforcement-Learning-Algorithmen mit zwei bis fünf Netzwerkschichten arbeiten, steigert ein Forscherteam die Leistung eines selbstüberwachten Agenten um das 2- bis 50-Fache, indem es die Netzwerktiefe auf bis zu 1024 Schichten erhöht. Dabei entstehen völlig neue Verhaltensweisen.

In der Sprach- und Bildverarbeitung hat das Vergrößern von Modellen zu Durchbrüchen geführt. Im Reinforcement Learning (RL), bei dem KI-Agenten durch Versuch und Irrtum lernen, blieb laut einem Forscherteam der Princeton University und der Warsaw University of Technology ein vergleichbarer Skalierungseffekt bisher aus. Die meisten RL-Systeme nutzen nur zwei bis fünf Netzwerkschichten, während Sprachmodelle wie Llama 3 auf Hunderte kommen.

Das Team zeigt nun, dass größere Netzwerktiefe die Leistung je nach Aufgabe um das 2- bis 50-Fache steigern kann. In besonders schwierigen Aufgaben, bei denen eine humanoide Figur ein Labyrinth durchlaufen muss, testeten die Forscher das System sogar mit bis zu 1024 Schichten. Der Schlüssel dazu ist ein Algorithmus namens Contrastive RL (CRL), der mehrere Prinzipien aus dem erfolgreichen Skalieren von Sprachmodellen auf das Reinforcement Learning überträgt.

Ein Netzwerk mit 4 Schichten scheitert im Labyrinth. | Video: Wang, Javali, Bortkiewicz et al.

Ein Netzwerk mit 64 Schichten lernt, das Labyrinth erfolgreich zu durchqueren. | Video: Wang, Javali, Bortkiewicz et al.

Kontrastives Lernen löst das Feedback-Problem von RL

Das grundlegende Problem beim Skalieren von RL: Ein Agent erhält weit weniger Feedback als ein Sprachmodell. Beim Training eines Sprachmodells dient jedes einzelne Wort in einem Text als Lernsignal. Ein RL-Agent dagegen bekommt oft nur eine spärliche Rückmeldung, ob er sein Ziel erreicht hat oder nicht.

CRL bringt dem Agenten eine einfache Fähigkeit bei: zu erkennen, ob eine Aktion nach einem Teil eines Pfades aussieht, der tatsächlich zum Ziel führt, oder nicht. Der Agent lernt dies aus eigenen Versuchen und Irrtümern, ohne menschliche Beispiele oder manuell definierte Belohnungen. Im Kern lernt das System, indem es immer wieder eine einfache Frage stellt: Gehört diese Aktion zu einem Pfad, der das Ziel erreicht, oder nicht? Passende Kombinationen werden im Training näher zusammengerückt, nicht passende weiter auseinandergeschoben.

Damit derart tiefe Netzwerke beim Training stabil bleiben, kombinieren die Forscher drei bewährte Architekturtechniken: Residualverbindungen, die Informationsverlust in tiefen Netzwerken verhindern, eine Normalisierungsmethode für stabilere Lernschritte und eine spezielle Aktivierungsfunktion. Laut der Studie funktioniert die Tiefenskalierung nur, wenn alle drei Komponenten zusammenwirken.

Humanoide Agenten lernen, aufrechtzugehen und über Wände zu springen

Besonders auffällig ist laut den Forschern, dass die Leistung nicht gleichmäßig wächst, sondern sprunghaft ansteigt, sobald eine kritische Tiefenschwelle überschritten wird. Bei einem simulierten humanoiden Agenten wirft sich das Modell mit vier Schichten lediglich in Richtung Ziel. Erst ab 16 Schichten lernt der Agent, aufrecht zu gehen. Bei 256 Schichten entwickelt er laut der Studie akrobatische Strategien und überwindet Hindernisse, indem er sich über Wände schwingt. Die Forscher bezeichnen dies als die ersten dokumentierten derartigen Verhaltensweisen in einem zielgerichteten RL-Ansatz für humanoide Umgebungen.

Mit zunehmender Netzwerktiefe entwickeln sich emergente Fähigkeiten beim humanoiden Agenten: Tiefe-4-Modelle kollabieren, Tiefe 16 ermöglicht aufrechtes Gehen, Tiefe 64 scheitert im U-Labyrinth und Tiefe 256 erreicht ein akrobatisches Überspringen der Mauer. | Bild: Wang, Javali, Bortkiewicz et al.

In 8 von 10 getesteten Aufgaben übertrifft der skalierte CRL-Ansatz alle anderen zielgerichteten RL-Baselines. Bei der schwierigsten Aufgabe beträgt die Verbesserung gegenüber dem Standardnetzwerk mehr als das 1000-Fache.

Tiefe schlägt Breite, aber nur beim richtigen Algorithmus

Frühere Arbeiten haben vor allem die Breite von RL-Netzwerken skaliert, also die Anzahl der Neuronen pro Schicht. Die Forscher zeigen, dass Tiefe der effektivere Hebel ist: Eine Verdopplung der Tiefe auf acht Schichten übertrifft selbst die breitesten Netzwerke und ist dabei parametereffizienter. Klassische RL-Methoden profitieren laut den Experimenten hingegen nicht von zusätzlicher Tiefe. Die selbstüberwachte Natur von CRL scheint entscheidend zu sein.

Die Kehrseite des Ansatzes ist der hohe Rechenaufwand: Je tiefer die Netzwerke werden, desto länger dauert das Training. Hinzu kommt, dass die Ergebnisse bisher nur in Simulationen gezeigt wurden. Offen ist auch, wie gut sich der Ansatz auf deutlich andere Situationen übertragen lässt. Zwar enthält die Studie einen ersten Test mit bislang unbekannten Zielkombinationen, eine breitere Prüfung unter veränderten Bedingungen fehlt aber noch. Auch in einem Offline-Setting, in dem der Agent nicht weiter mit seiner Umgebung interagiert, brachte zusätzliche Tiefe bislang kaum Vorteile. Der Code ist öffentlich verfügbar.

Bereits 2022 zeigten Forschende der Goethe-Universität Frankfurt, dass Skalierungsgesetze, wie sie aus großen Sprachmodellen bekannt sind, auch für Reinforcement-Learning-Algorithmen wie AlphaZero gelten könnten. In ihrer Analyse skalierte die Leistung der Agenten als Potenzgesetz mit der Netzwerkgröße. Die neue Arbeit liefert ein weiteres Indiz dafür, dass Skalierung auch im RL Wirkung entfalten kann, wobei hier die Netzwerktiefe und nicht nur die Gesamtgröße als entscheidender Faktor identifiziert wird.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren