Inhalt
summary Zusammenfassung

Eine neue Studie zeigt, dass die beeindruckenden Fortschritte von Alibabas Qwen2.5-Modellen beim mathematischen Reasoning durch Reinforcement Learning hauptsächlich auf Datenkontamination zurückzuführen sind. Auf "sauberen" Benchmarks versagen dieselben Methoden.

Anzeige

Um die Datenkontamination zu prüfen, testeten die Forschenden, ob Qwen2.5 unvollständige Probleme vervollständigen kann. Dazu gaben sie dem Modell nur die ersten 60 Prozent einer Problemstellung aus dem MATH-500-Benchmark vor.

Das Ergebnis ist eindeutig: Qwen2.5-Math-7B rekonstruiert die fehlenden 40 Prozent mit einer Genauigkeit von 54,6 Prozent und gibt trotz der unvollständigen Problemstellung in 53,6 Prozent der Fälle die korrekte Antwort. Llama3.1-8B erreicht nur 3,8 Prozent bzw. 2,4 Prozent. Diese Fähigkeit deutet stark darauf hin, dass Qwen die Probleme bereits aus dem Training kennt.

Vergleich von EM- und ROUGE-L-Ergebnissen dreier Modelle auf sechs Mathe-Datasets bei 80%, 60% und 40% Prompt-Längen.
Bild: Wu et al.

Der Verdacht bestätigt sich durch Tests mit dem erst kürzlich veröffentlichten LiveMathBench (Version 202505), der nach der Veröffentlichung von Qwen2.5 erstellt wurde. Auf diesem "sauberen" Benchmark fällt Qwens Vervollständigungsrate auf 0,0 Prozent, identisch mit Llama. Die Antwortgenauigkeit sinkt auf nur zwei Prozent.

Anzeige
Anzeige

Die Erklärung liegt wahrscheinlich im Vortraining von Qwen2.5 auf massiven webbasierten Korpora, die GitHub-Repositories mit Benchmark-Problemen und ihren offiziellen Lösungen enthalten. Besonders auffällig ist, dass selbst zufällige oder inkorrekte Belohnungssignale die Leistung von Qwen2.5-Math-7B auf MATH-500 verbessern.

Balkendiagramm: MATH-500-Genauigkeit von Qwen2.5- und Llama-3.1-Modellen mit greedy/Average@16-Decoding, mit/ohne Template.
Während Qwen2.5-Modelle auf dem MATH-500-Benchmark mit strukturierten Antwort-Templates dramatische Leistungseinbußen von bis zu 28 Prozentpunkten zeigen, bleibt Llama-3.1-8B nahezu unverändert. | Bild: Wu et al.

Saubere Evaluation mit synthetischen Problemen

Um ihre Hypothese zu testen, entwickelten die Forschende das RandomCalculation-Dataset mit vollständig synthetischen arithmetischen Problemen. Diese verwenden zufällige Operanden und Operatoren und wurden garantiert nach der Veröffentlichung von Qwen2.5 erstellt, wodurch Datenkontamination ausgeschlossen wird.

Auf diesem sauberen Benchmark zeigt sich ein gänzlich anderes Bild: Qwen2.5 weist eine monoton fallende Genauigkeit mit steigender Komplexität auf. Nur korrekte Belohnungssignale führen zu stabilen Verbesserungen, während zufällige Belohnungen das Training instabil machen und invertierte Belohnungen die mathematischen Fähigkeiten schnell verschlechtern.

Vier Liniendiagramme: Genauigkeit vs. Rechenschritt für Qwen2.5-Math-7B und -7B-Instruct mit/ohne Template und Greedy-/Avg@16-Decodierung.
Die Schritt-für-Schritt-Genauigkeit aller vier Qwen2.5-Varianten nimmt mit zunehmender Rechenschrittzahl ab. | Bild: Wu et al.

Kontrollierte Experimente bestätigen Kontamination

Die kontrollierten RLVR-Experimente (Reinforcement Learning with Verifiable Rewards) auf dem sauberen Dataset liefern eindeutige Ergebnisse:

  • Korrekte Belohnungen führen zu konsistenten Leistungsverbesserungen, die die ursprüngliche Modellleistung übertreffen.
  • Zufällige Belohnungen machen das Training hochgradig instabil ohne zuverlässige Verbesserungen.
  • Invertierte Belohnungen verschlechtern die mathematischen Fähigkeiten des Modells rapide.

Diese Ergebnisse widerlegen die alternative Erklärung, dass Qwens überlegene mathematische Grundfähigkeiten für die scheinbaren RL-Erfolge verantwortlich sind.

Empfehlung

Alibaba hatte Qwen2.5 im September 2024 vorgestellt und mit Qwen3 eine neue Modellfamilie eingeführt. Ob die Ergebnisse auch für Qwen3 gelten, müssen weitere Untersuchungen prüfen.

KI-Benchmarks mit begrenzter Aussagekraft

Die Studie warnt eindringlich vor der Verwendung kontaminierter Benchmarks für die Evaluation von RL-Methoden. Die Autoren empfehlen, dass zukünftige Studien auf unkontaminierten Benchmarks evaluieren und verschiedene Modellserien testen sollen.

Die Ergebnisse unterstreichen, wie schwierig es ist, echte Reasoning-Fähigkeiten von bloßer Erinnerung ("Memorization") zu unterscheiden und wie wichtig saubere Evaluationsmethoden für vertrauenswürdige KI-Forschung sind.

Schon zuvor hatten Untersuchungen demonstriert, wie wenig aussagekräftig Benchmarks unter Umständen sind. Bei Metas Llama 4 wurde nachgewiesen, dass das Unternehmen eine speziell für den LMArena-Benchmark optimierte Version eingereicht hat, die durch ausgefeilte Antwortformate bessere Bewertungen erzielte.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Andere Studien zeigen, dass Sprachmodelle wie Gemini 2.5 Pro oder Claude 3.5 Sonnet Testsituationen mit bis zu 95-prozentiger Treffsicherheit erkennen und ihr Verhalten entsprechend anpassen können, was grundlegende Fragen zur Validität von Evaluierungsverfahren aufwirft.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine aktuelle Studie zeigt, dass die Fortschritte der Qwen2.5-Modelle beim mathematischen Reasoning primär auf Datenkontamination in Benchmarks wie MATH-500 zurückzuführen sind. Auf sauberen, neu erstellten Benchmarks versagen dieselben Methoden.
  • Kontrollierte Experimente mit synthetischen Aufgaben bestätigen: Nur korrektes Feedback verbessert die Leistung von Qwen2.5 zuverlässig. Zufällige oder invertierte Belohnungssignale führen zu instabilen oder schlechteren Ergebnissen.
  • Die Autoren warnen, dass kontaminierte Benchmarks zu falschen Schlüssen über die Fähigkeiten von KI führen können. Sie fordern den Einsatz sauberer Evaluationsmethoden.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!