LongWriter: Aktuelle Sprachmodelle können viel längere Texte generieren als bisher angenommen

Midjourney prompted by THE DECODER

Forscher haben eine Methode entwickelt, um die Ausgabelänge von KI-Sprachmodellen auf über 10.000 Wörter zu erweitern. Bisher war eine Grenze von 2.000 üblich.

Heutige Sprachmodelle sind zwar in der Lage, Eingaben von Hunderttausenden oder sogar Millionen von Token zu verarbeiten, erzeugen aber ohne externe Eingriffe keine Ausgaben, die länger als bescheidene 2.000 Wörter sind.

Laut einer neuen Studie liegt das vor allem an den Trainingsdaten. Durch kontrollierte Experimente fanden die Forscher heraus, dass die effektive Ausgabelänge eines Modells durch die längste Ausgabe begrenzt ist, die es während des überwachten Feinabstimmens (Supervised Fine-Tuning, SFT) gesehen hat.

Mit anderen Worten: Die Ausgabebeschränkung liegt an der Knappheit an Beispielen mit langen Ausgaben in bestehenden SFT-Datensätzen. Um dieses Problem zu lösen, stellen die Wissenschaftler "AgentWrite" vor - eine agentenbasierte Pipeline, die lange Generierungsaufgaben in Teilaufgaben zerlegt. So können bestehende LLMs kohärente Ausgaben mit über 20.000 Wörtern erzeugen.

LongWriter generiert routinemäßig 40 Seiten Text

Mithilfe von AgentWrite erstellten die Forscher den Datensatz "LongWriter-6k". Er enthält 6.000 SFT-Daten mit Ausgabelängen zwischen 2.000 und 32.000 Wörtern. Durch das Training mit diesem Datensatz konnten sie die Ausgabelänge bestehender Modelle auf über 10.000 Wörter skalieren, ohne die Ausgabequalität zu beeinträchtigen.

Video: Bai, Zhang et al.

Zur Bewertung der ultralangen Generierungsfähigkeiten entwickelten sie außerdem "LongBench-Write" - einen umfassenden Benchmark mit verschiedenen Schreibanweisungen und Ausgabelängen von 0 bis über 4.000 Wörter.

Das 9-Milliarden-Parameter-Modell der Forscher, das zusätzlich durch Direct Preference Optimization (DPO) verbessert wurde, erreichte in diesem Benchmark Spitzenleistungen. Es übertraf sogar viel größere proprietäre Modelle.

Code und Modell für LongWriter sind auf GitHub verfügbar.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI-Forschung

LongWriter: Aktuelle Sprachmodelle können viel längere Texte generieren als bisher angenommen

LongWriter generiert routinemäßig 40 Seiten Text

Studie zeigt: KI-Systeme können mehr als sie über Prompts preisgeben

Reuters: USA bauen verdeckte Ortungstechnik in KI-Chip-Lieferungen ein

Perplexity bietet 34,5 Milliarden für Chrome – erneut PR-Stunt wie bei TikTok

xAI macht Grok 4 frei verfügbar

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

LongWriter: Aktuelle Sprachmodelle können viel längere Texte generieren als bisher angenommen

LongWriter generiert routinemäßig 40 Seiten Text

Artikel teilen

Bankverbindung