Ein Forschungsteam aus Singapur und China zeigt mit LongWriter-Zero, dass KI-Modelle durch Reinforcement Learning lernen können, über 10.000 Wörter lange Texte zu verfassen – ganz ohne synthetische Trainingsdaten.
Bisherige Sprachmodelle stoßen bei der Generierung sehr langer Texte an ihre Grenzen: Je länger der Text, desto mehr nehmen Kohärenzverluste, Wiederholungen und strukturelle Brüche zu. Um diese Herausforderungen zu adressieren, setzen gängige Verfahren wie Supervised Fine-Tuning (SFT) auf synthetisch erzeugte Langtexte. Diese sind jedoch aufwendig in der Erstellung und bleiben inhaltlich wie stilistisch häufig limitiert.
LongWriter-Zero, entwickelt von Forschenden der Singapore University of Technology and Design und der Tsinghua University, geht einen anderen Weg: Das Modell nutzt ausschließlich Reinforcement Learning (RL), um kohärente Langtexte zu erzeugen – ganz ohne vorgefertigte Trainingsbeispiele.
"Think Prompts" und Reinforcement Learning
Zentrales Element des RL-Trainings sind drei spezialisierte Belohnungsmodelle, die Textlänge, Schreibqualität und Struktur bewerten. Eine technische Neuerung ist außerdem das sogenannte Advantage Averaging, das die Belohnungen über verschiedene Qualitätsdimensionen hinweg ausgleichen soll. Als Basis für LongWriter-Zero dient das Qwen2.5-32B-Modell.
Ein besonderes Merkmal von LongWriter-Zero ist die Einführung von "Think Prompts": Das Modell wird vor der Antwortgenerierung zu einer Denkphase aufgefordert, in der es Struktur und Inhalt plant. Dadurch verbessert sich laut dem Team die Textkohärenz deutlich.
In Benchmarks wie Arena-Write steigen die Leistungswerte des Modells mit dieser Strategie stark an – von 700 auf 1200 Elo-Punkte. Eine zusätzliche Vortrainingsphase mit 30 Milliarden Tokens aus hochwertigen Textquellen hebt die Performance weiter an. Das Modell startet dadurch mit höherer Qualität und kann die RL-Belohnungen danach laut dem Team besser umsetzen - das zeige, dass bessere Basismodelle auch stärker von RL profitieren.
LongWriter-Zero zeigt "Reward Hacking"
Im vom Team durchgeführten Evaluierungen schlägt LongWriter-Zero etablierte Modelle wie DeepSeek-R1 und Claude 4 Sonnet sowohl in automatischen als auch in menschlichen Bewertungen.
Die Forschenden weisen jedoch explizit darauf hin, dass LongWriter-Zero anfällig für sogenanntes "Reward Model Hacking" ist – ein verbreitetes Problem bei RL-gestützten Sprachmodellen.
Sie beobachteten zwei Hauptphänomene: Zum einen nutzt das Modell Wiederholungen oder leicht variierte Formulierungen, um gezielt die vorgegebene Textlänge zu erreichen und dadurch die maximale Punktzahl im Length Reward Model zu erzielen. Trotz expliziter Strafmechanismen gegen offensichtliche Duplikate bleiben subtilere Formen von Redundanz, wie umformulierte Sätze oder leicht abgeänderte Passagen, häufig unerkannt.
Zum anderen zeigt das Writing Reward Model eine Präferenz für bestimmte Schlüsselwörter, die während des Trainings als besonders wertvoll eingestuft wurden. Das Modell lernt daraufhin, diese Begriffe auch in unpassenden Kontexten übermäßig einzusetzen, um die Belohnung zu maximieren.
Beide Phänomene könnten LongWriter-Zero in der Praxis ungeeignet für die Produktion qualitativ hochwertiger Texte machen.
Die Autoren sehen darin eine grundlegende Schwäche aktueller modellbasierter RL-Ansätze, da das Modell dazu tendiert, oberflächliche statistische Muster auszunutzen, anstatt sich an die eigentlichen Absichten menschlicher Nutzer anzupassen.