Inhalt
summary Zusammenfassung

Das KI-Unternehmen Datology AI hat ein neues Framework namens BeyondWeb entwickelt, das synthetische Daten für das Training von Sprachmodellen nutzt. Die Methode soll das Problem knapper hochwertiger Trainingsdaten lösen und dabei deutlich effizienter sein als bisherige Ansätze.

Anzeige

Die KI-Industrie steht vor einem fundamentalen Problem: Während die Trainingsbudgets für große Sprachmodelle in die Billionen von Token wachsen, werden hochwertige Webdaten zunehmend knapp. Das KI-Unternehmen Datology AI präsentiert nun BeyondWeb als Lösung für diese "Datenwand": Das Framework wandelt bestehende Webdokumente in informationsdichtere Formate um, verbessert den pädagogischen Ton und strukturiert Inhalte neu.

Deutliche Leistungssteigerungen

Nach Angaben der Forschenden erreicht BeyondWeb bei 8B-Parameter-Modellen eine um 5,1 Prozentpunkte höhere Genauigkeit als Cosmopedia von Hugging Face und liegt 2,6 Prozentpunkte über Nvidias Nemotron-CC-Datensatz.

Diagramm: BeyondWeb erreicht bei 1 B/3 B/8 B rund 57,4 %/60,8 %/63,7 % Genauigkeit und schlägt vier Baselines.
Die mittleren Genauigkeitswerte basieren auf 14 Standard-Benchmarks im 0-Shot- und 5-Shot-Setting. | Bild: Datology AI

Bei der Trainingsgeschwindigkeit berichtet die Studie von erheblichen Unterschieden: BeyondWeb soll 7,7-mal schneller trainieren als offene Webdaten und 2,7-mal schneller als Nemotron Synthetic. Ein 3B-Parameter-Modell, das mit BeyondWeb trainiert wurde, übertraf laut den Forschenden sogar ein 8B-Modell mit dem gleichen Token-Budget auf Cosmopedia.

Anzeige
Anzeige
Liniendiagramm: Genauigkeit von 8B-Modellen über Tokens, BeyondWeb erreicht 64 % bei 180 B, 2,7×–7,7× Speedup vs. Konkurrenz.
BeyondWeb erreicht bereits nach 66 Milliarden Tokens eine Endgenauigkeit von rund 64 Prozent und übertrifft damit RedPajama um das 7,7‑Fache sowie Nemotron‑Synth um das 2,7‑Fache. | Bild: Datology AI

Die Forschenden untersuchten systematisch sieben Forschungsfragen zur synthetischen Datengenerierung. Ein zentraler Befund: Vielfalt ist entscheidend für nachhaltigen Erfolg. Während Standard-Methoden früh im Training Vorteile bieten, führt ihr Mangel an stilistischer Vielfalt zu abnehmenden Erträgen.

Interessant ist die Erkenntnis zur Stil-Anpassung: Konversationsinhalte machen weniger als 2,7 Prozent der Webdaten aus, obwohl Chat die primäre Anwendung von LLMs ist. Das Erhöhen des Anteils konversationaler Daten verbessert die Leistung, die Verbesserungen sättigen jedoch schnell.

Kleine Modelle als effektive Umformulierer

Die Studie ergab, dass kleine LLMs effektive Umformulierer sein können. Die Qualität synthetischer Daten steigt beim Übergang von 1B auf 3B Parameter um 1,5 Prozentpunkte, sättigt dann aber bei 8B. Dies könnte hochwertige synthetische Datengenerierung auch für Organisationen mit begrenzten Ressourcen zugänglich machen.

Liniendiagramm: Synthetische Datengenauigkeit für Llama-3.2-1B (47,3 %), 3.2-3B (48,8 %), 3.1-8B (49,2 %) vs. RPJ-HQ (45,5 %).
Mit wachsender Modellgröße verbessert sich die synthetische Datengenauigkeit stärker beim Vergleich zwischen 1B und 3B, während der Zugewinn zu 8B abflacht. | Bild: Datology AI

Die Forschenden testeten verschiedene Umformulierer-Modellfamilien und fanden heraus, dass alle ähnlich hochwertige synthetische Daten produzieren. Die allgemeine Benchmark-Leistung eines Modells sage demzufolge nicht die Qualität der von ihm erzeugten synthetischen Daten voraus.

Einsatz in der Praxis

Das BeyondWeb-Framework wurde bereits für das 4,5B-Parameter-Modell AFM von ArceeAI eingesetzt. Für die praktische Umsetzung entwickelten die Wissenschaftler:innen eine skalierbare Pipeline, die Billionen von Token verarbeiten kann.

Empfehlung

Die Autor:innen betonen, dass die Generierung hochwertiger synthetischer Daten komplex ist und verschiedene Faktoren optimiert werden müssen. Eine freie Veröffentlichung von BeyondWeb für Forschungszwecke kündigt das Start-up nicht an.

Microsoft demonstrierte mit Phi-4 im Dezember 2024, wie synthetische Daten die KI-Leistung steigern können. Das Modell wurde gezielt mit 400 Milliarden Token synthetischer "lehrbuchartiger" Daten trainiert und nutzt spezielle "pivotal tokens" für bessere Lernergebnisse. In Benchmarks erzielen die Phi-4-Modelle gute Ergebnisse.

Ein halbes Jahr zuvor stellte Nvidia mit Nemotron-4 340B eine komplette Open-Source-Pipeline zur Generierung synthetischer Daten vor, wobei 98 Prozent der Trainingsdaten für das Instruct-Modell synthetisch erstellt wurden. Gleichzeitig konnten Forscher die weit verbreitete These vom "Modellzusammenbruch" widerlegen und zeigen, dass synthetische Daten bei richtigem Einsatz durchaus die KI-Entwicklung vorantreiben können.

Auch OpenAI erklärte bei der Vorstellung von GPT-5, dass das Modell mit synthetischen Daten trainiert wurde, die wohl vom hauseigenen o3‑Modell erzeugt wurden. Während andere Unternehmen synthetische Daten vor allem nutzen, um günstige Trainingsdatensätze zu erstellen, betonte OpenAI im Livestream, dass die eigenen Daten gezielt so aufbereitet seien, dass sie echtes Lernen ermöglichen – nicht bloß, um Lücken zu füllen. Vorgestellt wurde dieses Prinzip von Sébastien Bubeck, der zuvor die Entwicklung der Phi-Modelle bei Microsoft leitete.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Datology AI stellt mit BeyondWeb ein Framework vor, das bestehende Webdokumente gezielt umformuliert, um informationsdichtere und vielfältigere Trainingsdaten für Sprachmodelle zu erzeugen. Das soll das Problem knapper hochwertiger Daten adressieren.
  • BeyondWeb erzielte laut den Forschern bei 8B-Modellen eine um 5,1 Prozentpunkte höhere Genauigkeit als Cosmopedia und trainierte bis zu 7,7-mal schneller als offene Webdaten.
  • Die Studie hebt hervor, dass stilistische Vielfalt und der gezielte Anteil konversationaler Daten entscheidend für die Leistungsfähigkeit von Sprachmodellen sind.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!