LongWriter-Zero lernt nur durch Reinforcement Learning lange Texte zu schreiben

24. Juni 2025

GPT-4o prompted by THE DECODER

Ein Forschungsteam aus Singapur und China zeigt mit LongWriter-Zero, dass KI-Modelle durch Reinforcement Learning lernen können, über 10.000 Wörter lange Texte zu verfassen – ganz ohne synthetische Trainingsdaten.

Bisherige Sprachmodelle stoßen bei der Generierung sehr langer Texte an ihre Grenzen: Je länger der Text, desto mehr nehmen Kohärenzverluste, Wiederholungen und strukturelle Brüche zu. Um diese Herausforderungen zu adressieren, setzen gängige Verfahren wie Supervised Fine-Tuning (SFT) auf synthetisch erzeugte Langtexte. Diese sind jedoch aufwendig in der Erstellung und bleiben inhaltlich wie stilistisch häufig limitiert.

LongWriter-Zero, entwickelt von Forschenden der Singapore University of Technology and Design und der Tsinghua University, geht einen anderen Weg: Das Modell nutzt ausschließlich Reinforcement Learning (RL), um kohärente Langtexte zu erzeugen – ganz ohne vorgefertigte Trainingsbeispiele.

"Think Prompts" und Reinforcement Learning

Zentrales Element des RL-Trainings sind drei spezialisierte Belohnungsmodelle, die Textlänge, Schreibqualität und Struktur bewerten. Eine technische Neuerung ist außerdem das sogenannte Advantage Averaging, das die Belohnungen über verschiedene Qualitätsdimensionen hinweg ausgleichen soll. Als Basis für LongWriter-Zero dient das Qwen2.5-32B-Modell.

Ein besonderes Merkmal von LongWriter-Zero ist die Einführung von "Think Prompts": Das Modell wird vor der Antwortgenerierung zu einer Denkphase aufgefordert, in der es Struktur und Inhalt plant. Dadurch verbessert sich laut dem Team die Textkohärenz deutlich.

In Benchmarks wie Arena-Write steigen die Leistungswerte des Modells mit dieser Strategie stark an – von 700 auf 1200 Elo-Punkte. Eine zusätzliche Vortrainingsphase mit 30 Milliarden Tokens aus hochwertigen Textquellen hebt die Performance weiter an. Das Modell startet dadurch mit höherer Qualität und kann die RL-Belohnungen danach laut dem Team besser umsetzen - das zeige, dass bessere Basismodelle auch stärker von RL profitieren.

LongWriter-Zero zeigt "Reward Hacking"

Im vom Team durchgeführten Evaluierungen schlägt LongWriter-Zero etablierte Modelle wie DeepSeek-R1 und Claude 4 Sonnet sowohl in automatischen als auch in menschlichen Bewertungen.

Die Forschenden weisen jedoch explizit darauf hin, dass LongWriter-Zero anfällig für sogenanntes "Reward Model Hacking" ist – ein verbreitetes Problem bei RL-gestützten Sprachmodellen.

Sie beobachteten zwei Hauptphänomene: Zum einen nutzt das Modell Wiederholungen oder leicht variierte Formulierungen, um gezielt die vorgegebene Textlänge zu erreichen und dadurch die maximale Punktzahl im Length Reward Model zu erzielen. Trotz expliziter Strafmechanismen gegen offensichtliche Duplikate bleiben subtilere Formen von Redundanz, wie umformulierte Sätze oder leicht abgeänderte Passagen, häufig unerkannt.

Zum anderen zeigt das Writing Reward Model eine Präferenz für bestimmte Schlüsselwörter, die während des Trainings als besonders wertvoll eingestuft wurden. Das Modell lernt daraufhin, diese Begriffe auch in unpassenden Kontexten übermäßig einzusetzen, um die Belohnung zu maximieren.

Beide Phänomene könnten LongWriter-Zero in der Praxis ungeeignet für die Produktion qualitativ hochwertiger Texte machen.

Die Autoren sehen darin eine grundlegende Schwäche aktueller modellbasierter RL-Ansätze, da das Modell dazu tendiert, oberflächliche statistische Muster auszunutzen, anstatt sich an die eigentlichen Absichten menschlicher Nutzer anzupassen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

LongWriter-Zero lernt nur durch Reinforcement Learning lange Texte zu schreiben

"Think Prompts" und Reinforcement Learning

LongWriter-Zero zeigt "Reward Hacking"

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.