Inhalt
summary Zusammenfassung

Forscher haben eine Methode entwickelt, um die Ausgabelänge von KI-Sprachmodellen auf über 10.000 Wörter zu erweitern. Bisher war eine Grenze von 2.000 üblich.

Anzeige

Heutige Sprachmodelle sind zwar in der Lage, Eingaben von Hunderttausenden oder sogar Millionen von Token zu verarbeiten, erzeugen aber ohne externe Eingriffe keine Ausgaben, die länger als bescheidene 2.000 Wörter sind.

Laut einer neuen Studie liegt das vor allem an den Trainingsdaten. Durch kontrollierte Experimente fanden die Forscher heraus, dass die effektive Ausgabelänge eines Modells durch die längste Ausgabe begrenzt ist, die es während des überwachten Feinabstimmens (Supervised Fine-Tuning, SFT) gesehen hat.

Mit anderen Worten: Die Ausgabebeschränkung liegt an der Knappheit an Beispielen mit langen Ausgaben in bestehenden SFT-Datensätzen. Um dieses Problem zu lösen, stellen die Wissenschaftler "AgentWrite" vor - eine agentenbasierte Pipeline, die lange Generierungsaufgaben in Teilaufgaben zerlegt. So können bestehende LLMs kohärente Ausgaben mit über 20.000 Wörtern erzeugen.

Anzeige
Anzeige
Bild: Bai, Zhang et al.

LongWriter generiert routinemäßig 40 Seiten Text

Mithilfe von AgentWrite erstellten die Forscher den Datensatz "LongWriter-6k". Er enthält 6.000 SFT-Daten mit Ausgabelängen zwischen 2.000 und 32.000 Wörtern. Durch das Training mit diesem Datensatz konnten sie die Ausgabelänge bestehender Modelle auf über 10.000 Wörter skalieren, ohne die Ausgabequalität zu beeinträchtigen.

Video: Bai, Zhang et al.

Zur Bewertung der ultralangen Generierungsfähigkeiten entwickelten sie außerdem "LongBench-Write" - einen umfassenden Benchmark mit verschiedenen Schreibanweisungen und Ausgabelängen von 0 bis über 4.000 Wörter.

Das 9-Milliarden-Parameter-Modell der Forscher, das zusätzlich durch Direct Preference Optimization (DPO) verbessert wurde, erreichte in diesem Benchmark Spitzenleistungen. Es übertraf sogar viel größere proprietäre Modelle.

Code und Modell für LongWriter sind auf GitHub verfügbar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher haben eine Methode namens "AgentWrite" entwickelt, die es ermöglicht, die Ausgabelänge von KI-Sprachmodellen von bisher üblichen 2.000 auf über 10.000 Wörter zu erweitern.
  • Die Begrenzung der Ausgabelänge liegt laut einer Studie an den Trainingsdaten. Die effektive Ausgabelänge eines Modells wird durch die längste Ausgabe begrenzt, die es während des überwachten Feinabstimmens gesehen hat.
  • Mit AgentWrite erstellten die Forscher den Datensatz "LongWriter-6k" mit 6.000 Trainingsdaten und Ausgabelängen bis zu 32.000 Wörtern. Ein damit trainiertes 9-Milliarden-Parameter-Modell erreichte Spitzenleistungen im neu entwickelten "LongBench-Write" Benchmark.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!