Inhalt
summary Zusammenfassung

Eine neue Studie stellt infrage, ob Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) tatsächlich die Denkfähigkeiten großer Sprachmodelle verbessert – oder lediglich dabei hilft, bekannte Lösungswege effizienter zu reproduzieren.

Anzeige

Forschende der Tsinghua University und der Shanghai Jiao Tong University zeigen in einer Studie, dass RLVR zwar die Wahrscheinlichkeit erhöht, beim ersten Versuch eine richtige Antwort zu generieren – das sogenannte pass@1 –, aber keine neuen Problemlösestrategien erschließt. Wenn das ursprüngliche Modell eine Aufgabe nicht lösen kann, gelingt es auch dem RLVR-Modell nicht.

Reinforcement Learning für Reasoning-Modelle kommt primär bei Aufgaben zum Einsatz, bei denen es objektiv richtige oder falsche Antworten gibt – etwa Mathematik oder Programmieren. Statt auf menschlichem Feedback basieren die Belohnungen hier auf automatisch überprüfbaren Kriterien, etwa korrekten Rechenergebnissen oder bestandenen Codetests. RLVR ist die technische Innovation beim Training von Reasoning-Modellen wie OpenAIs o-Serie oder Deepseek-R1.

"RLVR befähigt ein Modell nicht dazu, Aufgaben zu lösen, die es vorher nicht lösen konnte", schreibt Studienleiter Yang Yue auf X. Das Potenzial der Methode sei deutlich geringer als bisher angenommen.

Anzeige
Anzeige

RLVR fokussiert auf bekannte Pfade – auf Kosten neuer Lösungen

Die Studie legt nahe, dass RLVR die Vielfalt der erzeugten Antworten – in der Fachsprache: die Entropie – verringert. Die Modelle konzentrieren sich nach dem Training stärker auf eine kleine Anzahl häufig belohnter Lösungspfade. Das verbessert die Trefferquote bei einzelnen Versuchen, schränkt aber die Vielfalt der Lösungsansätze bei mehreren Durchläufen ein.

Um die Wirkung von RLVR zu untersuchen, verglichen die Forschenden Basismodelle mit RLVR-Varianten anhand der pass@k-Metrik. Sie misst, ob unter mehreren generierten Antworten mindestens eine richtige dabei ist. Bei wenigen Versuchen schneiden RLVR-Modelle besser ab, da sie gezielt stark belohnte Lösungsmuster bevorzugen. Wenn man die Anzahl der Versuche erhöht, liefern die unbeeinflussten Basismodelle durch ihre größere Antwortvielfalt insgesamt mehr korrekte Ergebnisse – unabhängig vom konkreten Test oder Modelltyp.

Video: Yue et al.

Die Forschenden prüften den Effekt in drei Bereichen: Mathematik, Programmieren und visuelles Reasoning. In allen Fällen zeigte sich das gleiche Muster: RLVR-Modelle liefern bei einem einzelnen Versuch häufig korrekte Antworten, verlieren aber bei mehreren Versuchen an Vielfalt und Gesamtleistung.

Eine manuelle Überprüfung der Denkketten (CoTs) bestätigte zudem, dass die Basismodelle auch bei schwierigen Aufgaben, die zuvor nur RL-Modellen zugeschrieben wurden, durch vielfältige Lösungsansätze zum richtigen Ergebnis kommen können.

Empfehlung

Visualisierungen der Antwortpfade zeigen: Die erfolgreichen Lösungsstrategien der RLVR-Modelle stammen alle aus dem bereits vorhandenen Verhaltensspektrum der Basismodelle. RLVR erhöht lediglich deren Wahrscheinlichkeit – es erschließt keine neuen Wege.

Vergleichsdiagramm: Suchbäume für Base und RLVR-Modelle bei zwei Problemen, zeigt Effizienzsteigerung vs. reduzierte Reasoning-Kapazität.
Die Grafik verdeutlicht den Einfluss von RLVR-Training auf die Reasoning-Fähigkeiten von Sprachmodellen. Während es bei Problem A die Effizienz verbessert, schränkt es bei Problem B den Umfang der Reasoning-Kapazität ein. Dies zeigt die Komplexität der Optimierung von KI-Modellen für verschiedene Aufgabentypen. | Bild: Yue et al.

Während RLVR also die Effizienz bei der Lösungsfindung verbessert, führt es laut Studie nicht zu echtem Wissenszuwachs. Im Gegensatz dazu kann Wissensdistillation – das Lernen von stärkeren Modellen – neue Fähigkeiten tatsächlich ins Modell übertragen.

RLVR ist nützlich – aber nicht umfassend

Yang Yue betont, dass gerade die beschränkte Wirkung von RLVR der zentrale Punkt der Studie sei. Die Methode mache KI-Modelle nicht fähiger, sondern nur effizienter im Wiederholen bereits bekannter Lösungen.

Der KI-Forscher Nathan Lambert sieht die Ergebnisse im erwartbaren Rahmen. Reinforcement Learning sei darauf ausgelegt, gewünschte Verhaltensweisen gezielt zu verstärken – das verringere zwangsläufig die Antwortvielfalt. Dass Basismodelle bei vielen Versuchen besser abschneiden, sei eine direkte Folge davon.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Gleichzeitig weist Lambert auf methodische Einschränkungen der Studie hin: Das RL-Training wurde ausschließlich auf eng gefassten Datensätzen wie MATH und GSM8K durchgeführt. Diese eignen sich zwar gut für kontrollierte Vergleiche, erlauben aber keine Aussagen über die grundsätzlichen Grenzen von Reinforcement Learning. Entscheidend sei – so Lambert – das Skalieren von RL auf breitere Aufgabenbereiche. Genau das sei mit so eingeschränkten Trainingsdaten kaum möglich. OpenAI und andere hätten bereits gezeigt, dass Skalierung ein zentraler Erfolgsfaktor für leistungsfähige RL-Systeme sei.

Die Studie ist damit keine generelle Absage an Reinforcement Learning, sondern eine präzise Analyse seiner Wirkung im aktuellen technischen Rahmen. "Wir kommen gerade an den Punkt, an dem wir schwierige Dinge tun müssen. Schwierige Dinge sind interessanter, aber – Überraschung – sie sind schwierig und dauern länger", schreibt Lambert.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende der Tsinghua University und der Shanghai Jiao Tong University zeigen, dass Reinforcement Learning für Reasoning Modelle zwar die Trefferquote bei einzelnen Antworten erhöht, aber keine neuen Problemlösestrategien erschließt – Modelle lösen nur Aufgaben, die sie vorher schon lösen konnten.
  • RLVR führt dazu, dass sich Modelle stärker auf bekannte Lösungspfade konzentrieren, was bei einem Versuch die Erfolgsquote steigert, jedoch bei mehreren Versuchen die Vielfalt und Gesamtleistung einschränkt.
  • Laut der Studie verbessert RLVR die Effizienz, aber nicht die Fähigkeiten von Sprachmodellen; neue Kompetenzen lassen sich eher durch Methoden wie Wissensdistillation übertragen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!