Inhalt
summary Zusammenfassung

Ein Forschungsteam schlägt ein neues Framework namens RLSP vor, das Suchverhalten in großen Sprachmodellen stimuliert und so zu besseren Schlussfolgerungen führt. Die Modelle zeigen interessante emergente Eigenschaften.

Anzeige

Laut Forschern des MIT, der Cornell University, der University of Washington und Microsoft Research könnte ein Framework namens "Reinforcement Learning via Self-Play" (RLSP) der Schlüssel sein, um großen Sprachmodellen (LLMs) die Fähigkeiten beizubringen, die in Modellen wie OpenAIs o1, o3, Deepseeks R1 oder Googles Gemini Thinking beobachtet werden. RLSP verwandelt LLMs in "Large Reasoning Models" (LRMs), die während der Inferenz mehr Zeit und Rechenleistung aufwenden, um qualitativ hochwertigere Ergebnisse zu erzeugen.

Das RLSP-Framework besteht aus drei Schritten: Zunächst wird Supervised Fine-Tuning (SFT) mit menschlichen oder synthetischen Reasoning-Demonstrationen durchgeführt, wann immer möglich. Dann wird eine Erkundungsbelohnung (Exploration-Reward-Signal) verwendet, um vielfältige und effiziente Reasoning-Verhaltensweisen zu fördern. Zuletzt erfolgt RL-Training mit einem Outcome-Verifizierer, um Korrektheit sicherzustellen und Reward Hacking zu verhindern.

Die Forscher testeten RLSP empirisch im Bereich Mathematik. Bei Llama-Modellen konnte RLSP die Leistung im MATH-500-Testdatensatz um 23 % steigern. Bei AIME 2024 Mathematikproblemen verbesserte sich Qwen2.5-32B-Instruct dank RLSP um 10 %. Selbst mit der einfachsten Erkundungsbelohnung, die das Modell dazu bringt, mehr Zwischenschritte auszugeben, zeigten die Modelle emergente Verhaltensweisen wie Backtracking, Erkundung von Ideen und Verifikation.

Anzeige
Anzeige

Diese Ergebnisse decken sich weitgehend mit den Erkenntnissen, die das Team hinter Deepseek R1 und R1-Zero sowie kürzlich Forscher von IN.AI, der Tsinghua University und der Carnegie Mellon University berichtet haben.

Das Team zeigt in dieser Darstellung, dass RLSP in ihren Experimenten aktuell noch nicht zu höheren Formen des Schlussfolgerns führt.

Der interessanteste Beitrag der Arbeit ist laut den Forschern das Verständnis der emergenten Eigenschaften von Modellen, die mit RLSP trainiert wurden. Selbst ohne überwachtes Lernen (SFT), aber mit minimaler Erkundungsbelohnung, lernen alle Modelle in den Bereichen Code und Mathematik mehrere interessante Suchverhaltensweisen.

Sie zeigen verschiedene emergente Eigenschaften wie die Erkundung alternativer Möglichkeiten, Gegenprüfung, Backtracking und Selbstkorrektur. RLSP ermöglicht solche emergenten Suchverhaltensweisen über mehrere Modellfamilien, -größen und Domänen hinweg.

Warum RLSP funktioniert

Die Forscher schlagen eine Theorie vor, warum die RLSP-Suchstrategie besser für LLMs geeignet ist als frühere Ansätze: Jüngste Ergebnisse zeigten, dass "Chain-of-Thought" (CoT) nachweislich die Rechenleistung von LLMs und damit das Reasoning erhöht. Je länger die CoT-Spur ist, desto mehr Rechenleistung steht für das Reasoning zur Verfügung.

RLSP rege Modelle an, synthetisch neuartige Chain-of-Thought (CoT) Reasoning-Pfade zu generieren, die nicht bereits in den Trainingsdaten enthalten sind, und daraus zu lernen. Dies geschieht in Form von "Self-Play" - ein zentrales Konzept der Suche und verwandten KI-Modellen wie AlphaZero.

Empfehlung

Durch die verwendeten Belohnungssignale, die das Modell dazu ermutigen, mit zunehmender Problemschwierigkeit mehr Zwischenschritte zu verwenden und verschiedene Begründungen zu erkunden, können diese neuartigen CoT-Pfade entstehen. Die Erkundungsbelohnung fördert die Ausgabe aller Zwischenschritte (CoT), auch wenn die meisten Pfade während des RL-Trainings nicht zur korrekten Antwort führen. Wenn das Modell jedoch schließlich über einen langen Reasoning-Pfad die richtige Antwort findet, erhält es die volle Belohnung.

Auf diese Weise erzeugt RLSP durch Self-Play neue CoT-Daten. Da bekannt ist, dass CoT die Reasoning-Fähigkeiten von LLMs verbessert, könne RLSP diese Fähigkeiten im Prinzip kontinuierlich weiter verbessern, solange es ausreichend vielfältige neue Probleme zu lösen gibt.

Die emergenten Verhaltensweisen der mit RLSP trainierten Modelle, wie das Erkunden mehrerer Begründungen und das Verifizieren, dass alle zum gleichen Ergebnis führen, scheinen diese Theorie laut dem Team zu bestätigen. RLSP ermögliche es den Modellen, durch das Generieren synthetischer CoT-Spuren kontinuierlich besser zu werden.

Viele Fragen bleiben offen

Dennoch bleiben laut dem Team viele Fragen offen. Wie könne beispielsweise eine feinkörnigere Suche zur Laufzeit in LLMs ermöglicht werden, bei der die Suchzeit direkten Einfluss auf die Lösungsqualität hat? So könnte das Modell zwischen trivialen Aufgaben wie 1+1 und komplexen Problemen wie der Riemann-Hypothese unterscheiden. Welchen Einfluss hat die Kontextlänge auf das Reasoning und kann reine RL ohne Erkundungsbelohnung ab einer bestimmten Modellgröße zu Denkverhalten führen? Was ist der genaue Einfluss der Pre-Training-Daten?

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Außerdem: Auch wenn die Modelle interessante Suchstrategien wie Backtracking und Verifizierung zeigen, sind diese den Forschern nicht völlig unerwartet, da sie indirekt auch in den Pre-Training-Daten vorkommen. Es gelte daher auch die Frage zu beantworten, ob es wirklich neuartige emergente Verhaltensweisen gebe, die menschliches Denken übertreffen oder zumindest überraschen?

Und: Welche weiteren Trainingsmethoden sind nötig, um noch höhere Formen des Reasoning wie Abstraktion, Theoriebildung und das Lösen offener Probleme zu erreichen?

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher schlagen das Framework "Reinforcement Learning via Self-Play" (RLSP) vor, um großen Sprachmodellen (LLMs) Reasoning-Fähigkeiten beizubringen. RLSP besteht aus Supervised Fine-Tuning, einer Erkundungsbelohnung und RL-Training mit einem Outcome-Verifizierer.
  • In Tests konnte RLSP die Leistung von Llama-Modellen im MATH-500-Datensatz um 23 % und von Qwen2.5-32B-Instruct bei AIME 2024 Mathematikproblemen um 10 % steigern. Die Modelle zeigten emergente Verhaltensweisen wie Backtracking, Erkundung von Ideen und Verifikation.
  • Die Forscher vermuten, dass RLSP durch das Generieren synthetischer "Chain-of-Thought" (CoT) Reasoning-Pfade im Self-Play-Verfahren funktioniert. Dennoch bleiben viele Fragen offen, etwa wie eine feinkörnigere Suche ermöglicht und noch höhere Formen des Reasoning wie Abstraktion und Theoriebildung erreicht werden können.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!