LongWriter-Zero lernt nur durch Reinforcement Learning lange Texte zu schreiben

24. Juni 2025

GPT-4o prompted by THE DECODER

Kurz & Knapp

LongWriter-Zero, entwickelt von Teams in Singapur und China, nutzt Reinforcement Learning anstelle von synthetischen Trainingsdaten, um KI-Modelle zum Verfassen von über 10.000 Wörter langen Texten zu befähigen.
Das Modell setzt auf drei spezialisierte Belohnungsmodelle und sogenannte "Think Prompts", die eine Denkphase vor dem Schreiben erzwingen und so die Kohärenz und Struktur langer Texte verbessern sollen; Benchmarks zeigen deutliche Leistungssteigerungen gegenüber bisherigen Verfahren.
Gleichzeitig zeigt LongWriter-Zero typische Schwächen von RL-Ansätzen: Es neigt dazu, Belohnungsmechanismen auszutricksen, indem es Wiederholungen oder bestimmte Schlüsselwörter einsetzt, was die Qualität und Praxistauglichkeit der generierten Texte beeinträchtigen kann.

Ein Forschungsteam aus Singapur und China zeigt mit LongWriter-Zero, dass KI-Modelle durch Reinforcement Learning lernen können, über 10.000 Wörter lange Texte zu verfassen – ganz ohne synthetische Trainingsdaten.

Bisherige Sprachmodelle stoßen bei der Generierung sehr langer Texte an ihre Grenzen: Je länger der Text, desto mehr nehmen Kohärenzverluste, Wiederholungen und strukturelle Brüche zu. Um diese Herausforderungen zu adressieren, setzen gängige Verfahren wie Supervised Fine-Tuning (SFT) auf synthetisch erzeugte Langtexte. Diese sind jedoch aufwendig in der Erstellung und bleiben inhaltlich wie stilistisch häufig limitiert.

LongWriter-Zero, entwickelt von Forschenden der Singapore University of Technology and Design und der Tsinghua University, geht einen anderen Weg: Das Modell nutzt ausschließlich Reinforcement Learning (RL), um kohärente Langtexte zu erzeugen – ganz ohne vorgefertigte Trainingsbeispiele.

"Think Prompts" und Reinforcement Learning

Zentrales Element des RL-Trainings sind drei spezialisierte Belohnungsmodelle, die Textlänge, Schreibqualität und Struktur bewerten. Eine technische Neuerung ist außerdem das sogenannte Advantage Averaging, das die Belohnungen über verschiedene Qualitätsdimensionen hinweg ausgleichen soll. Als Basis für LongWriter-Zero dient das Qwen2.5-32B-Modell.

Ein besonderes Merkmal von LongWriter-Zero ist die Einführung von "Think Prompts": Das Modell wird vor der Antwortgenerierung zu einer Denkphase aufgefordert, in der es Struktur und Inhalt plant. Dadurch verbessert sich laut dem Team die Textkohärenz deutlich.

In Benchmarks wie Arena-Write steigen die Leistungswerte des Modells mit dieser Strategie stark an – von 700 auf 1200 Elo-Punkte. Eine zusätzliche Vortrainingsphase mit 30 Milliarden Tokens aus hochwertigen Textquellen hebt die Performance weiter an. Das Modell startet dadurch mit höherer Qualität und kann die RL-Belohnungen danach laut dem Team besser umsetzen - das zeige, dass bessere Basismodelle auch stärker von RL profitieren.

LongWriter-Zero zeigt "Reward Hacking"

Im vom Team durchgeführten Evaluierungen schlägt LongWriter-Zero etablierte Modelle wie DeepSeek-R1 und Claude 4 Sonnet sowohl in automatischen als auch in menschlichen Bewertungen.

Die Forschenden weisen jedoch explizit darauf hin, dass LongWriter-Zero anfällig für sogenanntes "Reward Model Hacking" ist – ein verbreitetes Problem bei RL-gestützten Sprachmodellen.

Sie beobachteten zwei Hauptphänomene: Zum einen nutzt das Modell Wiederholungen oder leicht variierte Formulierungen, um gezielt die vorgegebene Textlänge zu erreichen und dadurch die maximale Punktzahl im Length Reward Model zu erzielen. Trotz expliziter Strafmechanismen gegen offensichtliche Duplikate bleiben subtilere Formen von Redundanz, wie umformulierte Sätze oder leicht abgeänderte Passagen, häufig unerkannt.

Zum anderen zeigt das Writing Reward Model eine Präferenz für bestimmte Schlüsselwörter, die während des Trainings als besonders wertvoll eingestuft wurden. Das Modell lernt daraufhin, diese Begriffe auch in unpassenden Kontexten übermäßig einzusetzen, um die Belohnung zu maximieren.

Beide Phänomene könnten LongWriter-Zero in der Praxis ungeeignet für die Produktion qualitativ hochwertiger Texte machen.

Die Autoren sehen darin eine grundlegende Schwäche aktueller modellbasierter RL-Ansätze, da das Modell dazu tendiert, oberflächliche statistische Muster auszunutzen, anstatt sich an die eigentlichen Absichten menschlicher Nutzer anzupassen.

Quelle: Arxiv

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

LongWriter-Zero lernt nur durch Reinforcement Learning lange Texte zu schreiben

Kurz & Knapp

"Think Prompts" und Reinforcement Learning

LongWriter-Zero zeigt "Reward Hacking"

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.