Anzeige
Skip to content

X-Coder übertrifft deutlich größere KI-Modelle dank rein synthetischer Trainingsdaten

Image description
Sora prompted by THE DECODER

Kurz & Knapp

  • Forscher der Tsinghua University und Microsoft haben mit SynthSmith eine Pipeline entwickelt, die Trainingsaufgaben für Code-Modelle vollständig synthetisch generiert.
  • Ihr 7B-Modell X-Coder übertrifft damit doppelt so große Konkurrenten.
  • Die Experimente zeigen: Aufgabenvielfalt ist wichtiger als mehrere Lösungen pro Aufgabe, und die Leistung steigt kontinuierlich mit der Datenmenge.

Forscher der Tsinghua University und Microsoft haben ein Verfahren entwickelt, um KI-Modelle für anspruchsvolles Programmieren ausschließlich mit generierten Daten zu trainieren. Ihr 7-Milliarden-Parameter-Modell X-Coder übertrifft auf dem LiveCodeBench-Benchmark doppelt so große Konkurrenten.

Die Experimente der Forschergruppe belegen einen klaren Zusammenhang zwischen Datenmenge und Benchmark-Ergebnissen: Mit 32.000 synthetischen Programmieraufgaben erreicht das Modell eine Pass-Rate von 43,7 Prozent. Bei 64.000 Aufgaben steigt der Wert auf 51,3 Prozent, bei 128.000 auf 57,2 Prozent und bei 192.000 schließlich auf 62,7 Prozent.

Mehrere Diagramme zur Lern-Dynamik. Ein Liniendiagramm zeigt den steilen Leistungsanstieg bei Erhöhung der Trainingsschritte und Aufgabenmenge. Zwei Balkendiagramme rechts verdeutlichen, dass 64.000 Aufgaben mit je einer Lösung (47 %) besser abschneiden als weniger Aufgaben mit mehreren Lösungsvarianten.
Die Forscher konnten nachweisen, dass die Modellleistung stetig mit der Anzahl der synthetischen Aufgaben steigt. | Bild: Wu et al.

Bei gleichem Rechenbudget erweist sich die Vielfalt der Aufgaben als wichtiger als die Anzahl der Lösungen pro Aufgabe. Ein Datensatz mit 64.000 verschiedenen Aufgaben und jeweils einer Lösung schneidet besser ab als einer mit 16.000 Aufgaben und je vier Lösungen oder 8.000 Aufgaben mit je acht Lösungen.

Aufgaben entstehen aus kombinierten Bausteinen

Die Entwicklung leistungsfähiger Code-Modelle scheitert oft an begrenzten Trainingsdaten. Bestehende Sammlungen von Wettbewerbsaufgaben werden häufig wiederverwendet und reichen nicht aus, um weitere Verbesserungen zu erzielen. Bisherige synthetische Ansätze schreiben vorhandene Aufgaben lediglich um und bleiben dadurch in ihrer Vielfalt an die ursprünglichen Vorlagen gebunden.

Anzeige
DEC_D_Incontent-1

Infografik zum SynthSmith-Framework in vier Modulen: 1. Task Generation durch Merkmals-Extraktion und Evolution. 2. Test Generation mittels Tools und Prompts. 3. Solution Generation durch Sampling. 4. Dual Verification mittels Majority Voting und Scoring zur Auswahl der besten Lösung („Golden Solution“).
In vier Schritten generiert das System hochwertige Trainingsdaten. Nach der Extraktion und Evolution von Programmier-Merkmalen (1) werden Aufgaben erstellt, für die mittels LLMs Lösungen (2) und Testfälle (3) generiert werden. Eine zweistufige Validierung („Dual Verification“) stellt die Korrektheit der synthetischen Daten sicher. | Bild: Wu et al.

Die vorgestellte Pipeline namens SynthSmith generiert stattdessen Aufgaben, Lösungen und Testfälle vollständig neu. Der Prozess beginnt mit der Extraktion wettbewerbsrelevanter Merkmale aus 10.000 existierenden Code-Beispielen. Diese Merkmale umfassen Algorithmen, Datenstrukturen und Optimierungstechniken. Durch einen Evolutionsprozess erweitert das System den Pool von 27.400 auf knapp 177.000 Algorithmus-Einträge. Aus diesen Bausteinen kombiniert die Pipeline dann neue Programmieraufgaben in verschiedenen Stilen.

Die Qualitätssicherung erfolgt in zwei Stufen. Zunächst bestimmt das System durch Mehrheitsentscheidung über mehrere Kandidatenlösungen die korrekten Testausgaben. Anschließend validiert es die beste Lösung an einem zurückgehaltenen Testset, um Überanpassung zu vermeiden.

7B-Modell vor 14B-Konkurrenz

Das X-Coder-Modell mit 7 Milliarden Parametern erreicht auf LiveCodeBench v5 eine durchschnittliche Pass-Rate von 62,9 bei acht Versuchen. Auf der neueren Version v6 liegt der Wert bei 55,8. Das Modell übertrifft damit DeepCoder-14B-Preview und AReal-boba²-14B, die beide 14 Milliarden Parameter umfassen und auf einem stärkeren Basismodell aufbauen.

Im Vergleich mit dem derzeit größten öffentlichen Datensatz für Code-Reasoning erzielt SynthSmith einen Vorsprung von 6,7 Punkten. Die Forscher führen dies auf anspruchsvollere Aufgaben zurück, die längere Denkprozesse erfordern. Die durchschnittliche Länge der Reasoning-Ketten beträgt 17.700 Token gegenüber 8.000 Token beim Vergleichsdatensatz.

Anzeige
DEC_D_Incontent-2

Zweigeteilte Grafik: Links ein Vergleich der Trainingsdaten-Strategie, bei der X-Coder in allen Phasen (SFT und RL) auf rein synthetische Daten setzt. Rechts ein Balkendiagramm, das zeigt, dass X-Coder-7B mit Scores von 62,9 (v5) und 55,8 (v6) an der Spitze der verglichenen Code-Modelle liegt.
Der X-Coder setzt konsequent auf synthetische Daten für das Fine-Tuning (SFT) und Reinforcement Learning (RL). Im Benchmark-Vergleich auf LiveCodeBench (v5 und v6) übertrifft das 7B-Modell deutlich größere und etablierte Konkurrenten wie Mimo-7B oder Qwen3-8B. | Bild: Wu et al.

Eine zusätzliche Reinforcement-Learning-Phase bringt einen Gewinn von 4,6 Prozentpunkten. Das Training funktioniert auch mit fehlerbehafteten synthetischen Testfällen, die eine Fehlerrate von etwa fünf Prozent aufweisen. Laut Paper erforderte das Training 128 H20-GPUs über 220 Stunden für das überwachte Feintuning sowie 32 H200-GPUs über sieben Tage für das Reinforcement Learning.

Weniger Kontamination durch synthetische Daten

Ein Vorteil des synthetischen Ansatzes zeigt sich beim Vergleich älterer und neuerer Benchmarks. Das Referenzmodell Qwen3-8B erreichte auf einer älteren Version des LiveCodeBench einen Score von 88,1, fiel aber auf der neueren Version auf 57,5.

X-Coder zeigt mit Scores von 78,2 und 62,9 einen geringeren Rückgang von 17,2 Punkten. Da das Modell ausschließlich auf synthetischen Daten trainiert wurde, könne es keine Aufgaben aus älteren Benchmarks auswendig gelernt haben. Die Forscher wollen die Modellgewichte veröffentlichen, auf GitHub befindet sich bereits der Code zur Aufbereitung des Trainingsmaterials.

Das Interesse an synthetischen Trainingsdaten wächst in der KI-Branche. Vergangenes Jahr stellte das Start-up Datology AI mit BeyondWeb ein Framework vor, das bestehende Webdokumente umformuliert, um informationsdichtere Trainingsdaten zu erzeugen. Auch Nvidia setzt verstärkt auf synthetische Daten in der Robotik, um den Mangel an realen Trainingsdaten zu kompensieren. Das Unternehmen will auf diesem Weg ein Datenproblem in ein Rechenproblem verwandeln.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Arxiv