Inhalt
summary Zusammenfassung

Forschende identifizieren Datenqualität, Algorithmus-Design und Reasoning-Modi als Schlüssel für erfolgreiches KI-Training. Ein daraus entwickeltes 4-Milliarden-Parameter-Modell schlägt 32-Milliarden-Parameter-Konkurrenten.

Anzeige

Bisherige Trainingsmethoden für KI-Agenten führten oft zu instabilen Ergebnissen und ineffizientem Lernen, so das Team von der National University of Singapore, Princeton University und University of Illinois. Die Wissenschaftler:innen analysierten systematisch, warum aktuelle Reinforcement-Learning-Ansätze häufig versagen und wie sich dies beheben lässt.

Infografik zu den drei Schlüsselfaktoren für KI-Training: 1. Datenqualität (real vs. synthetisch), 2. Algorithmus-Design (Techniken und Trainingsdynamik) und 3. Denkweise der KI (reaktiv vs. überlegt).
Die Forschenden analysierten systematisch die Datenqualität (links), das Algorithmus-Design (Mitte) und die Denkweise der KI (rechts), um die Leistung von KI-Agenten zu optimieren. | Bild: Yu et al.

Faktor 1: Datenqualität entscheidet über Erfolg

Der erste kritische Faktor betrifft die Art der Trainingsdaten. Die Forschenden verglichen echte Lernverläufe mit künstlich zusammengesetzten Beispielen, bei denen Denkschritte nachträglich durch Werkzeug-Ergebnisse ersetzt wurden.

Tests mit mathematischen Aufgaben in AIME-Benchmarks zeigten große Unterschiede. Mit echten Trainingsdaten erreichte ein 4-Milliarden-Parameter-Modell 29,79 Prozent Genauigkeit bei durchschnittlicher Leistung. Künstliche Daten erzielten dagegen weniger als 10 Prozent.

Anzeige
Anzeige
Tabelle, die zeigt, dass zwei KI-Modelle (Qwen-7B und Qwen-4B) auf den AIME-Mathematik-Benchmarks durchweg deutlich bessere Ergebnisse erzielen, wenn sie mit
Das Training mit echten, durchgängigen Lerndaten ("real trajectory") führt bei beiden KI-Modellen zu einer signifikant höheren Genauigkeit als das Training mit künstlich erstellten Daten ("synthetic trajectory"). | Bild: Yu et al.

Echte Daten erfassen laut der Studie vollständige Denkprozesse: die Analyse vor Werkzeugaufruf, überwachte Ausführung, Fehlerkorrektur und Selbstreflexion. Künstliche Daten können diese natürlichen Verbindungen nicht nachbilden.

Die Vielfalt der Trainingsdaten erwies sich als ebenso wichtig. Ein gemischter Datensatz aus 30 000 Beispielen aus Mathematik, Wissenschaft und Programmierung beschleunigte das Lernen erheblich. Die KI erreichte 50 Prozent Genauigkeit bereits nach 150 Trainingsschritten, während ein rein mathematischer Datensatz 220 Schritte benötigte.

Faktor 2: Algorithmus-Design optimiert Lernprozess

Der zweite Faktor betrifft die Art der Leistungsoptimierung. Die Forschenden entwickelten drei verschiedene Varianten ihres Trainingsalgorithmus und verglichen deren Wirksamkeit systematisch.

Die erfolgreichste Variante kombiniert mehrere Verbesserungen: Token-basierte Bewertung (jeder Wortbaustein wird separat bewertet statt ganzer Sätze), erweiterte Clipping-Bereiche für mehr Exploration und eine spezielle Belohnungsstruktur gegen zu lange Antworten. Diese Kombination nennen die Wissenschaftler:innen GRPO-TCR.

Gitter aus 12 Graphen, das drei Trainingsalgorithmen vergleicht: Die token-basierte Methode GRPO-TCR (orange) ist durchweg leistungsstärker als die satzbasierte Methode GRPO-SCR (grün) und der Basis-Algorithmus GRPO-T (blau).
Die Grafik zeigt die Überlegenheit der erfolgreichsten Variante GRPO-TCR (orange), die eine token-basierte Bewertung nutzt. Sie übertrifft durchweg die satzbasierte Methode GRPO-SCR (grün) und den Basis-Algorithmus GRPO-T (blau). | Bild: Yu et al.

Mit diesem optimierten Verfahren erreichten sie 70,93 Prozent Genauigkeit auf einem mathematischen Benchmark und 68,13 Prozent auf einem anderen. Die Token-basierte Bewertung erwies sich als besonders wichtig und übertraf satzbasierte Methoden um etwa 4 Prozent, da jedes einzelne Wort gleichmäßig zum Lernfortschritt beiträgt.

Empfehlung

Anders als bei herkömmlichem Reinforcement Learning können KI-Agenten durch Werkzeug-Interaktionen sowohl ihre Explorationsfähigkeit als auch ihre Präzision gleichzeitig verbessern. Dies ermöglicht stabileres und effektiveres Training.

Faktor 3: Denkweise bestimmt Effizienz

Der dritte entscheidende Faktor ist die Art, wie KI-Agenten ihre Denkprozesse organisieren. Die Forschenden identifizierten zwei grundlegend verschiedene Strategien: reaktives Verhalten mit kurzem Nachdenken und häufiger Werkzeug-Nutzung sowie überlegtes Vorgehen mit längerem Nachdenken und seltenerem Werkzeug-Einsatz.

Die leistungsstärksten Modelle bevorzugten durchweg die überlegte Strategie und erreichten über 70 Prozent Erfolgsrate bei der Werkzeug-Nutzung. Reaktive Modelle zeigten deutlich niedrigere Erfolgsraten, da ihre schnellen und häufigen Werkzeugaufrufe oft ineffektiv oder fehlerhaft waren.

Vier Liniendiagramme, die zeigen, dass der Basis-Algorithmus GRPO-T (blau) reaktives Verhalten aufweist (viele Werkzeug-Aufrufe, kurze Antworten), während die leistungsstärkeren Algorithmen GRPO-TCR (orange) und GRPO-SCR (grün) überlegtes Verhalten zeigen (wenige Werkzeug-Aufrufe, lange Antworten).
Die Grafik zeigt, dass der Basis-Algorithmus (blau) zu reaktivem Verhalten mit vielen Werkzeugaufrufen (oben) und kurzen Antworten (unten) neigt. Die leistungsstärkeren Algorithmen verfolgen hingegen eine überlegte Strategie mit wenigen, gezielten Werkzeugaufrufen und längeren Denkphasen. | Bild: Yu et al.

Die Wissenschaftler:innen schlussfolgern, dass Qualität wichtiger ist als Quantität: KI-Agenten, die mehr Zeit ins Nachdenken investieren, treffen letztlich bessere Entscheidungen beim Werkzeugeinsatz.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Interessant ist, dass aktuelle Long-Chain-of-Thought-Modelle, die für langes Nachdenken optimiert wurden, bei der Integration von Werkzeugen versagen. Sie neigen dazu, Werkzeugaufrufe ganz zu vermeiden und sich ausschließlich auf interne Denkprozesse zu verlassen.

Kompaktes Modell schlägt große Konkurrenten

Als praktische Anwendung ihrer Erkenntnisse entwickelten die Forschenden DemyAgent-4B mit nur 4 Milliarden Parametern. Das Modell erreichte 72,6 Prozent auf dem AIME2024-Mathematik-Benchmark, 70 Prozent auf AIME2025, 58,5 Prozent auf dem wissenschaftlichen GPQA-Diamond-Test und 26,8 Prozent beim Programmier-Benchmark LiveCodeBench-v6. Damit zeigte es eine Leistung, die mit deutlich größeren Modellen mit 14 bis 32 Milliarden Parametern konkurrieren kann und diese teilweise sogar übertrifft.

Tabelle, die die Leistung von DemyAgent-4B im Vergleich zu anderen KI-Modellen listet. Die Werte belegen, dass das 4-Milliarden-Parameter-Modell mit größeren Konkurrenten wie rStar2-Agent-14B und ReTool-32B konkurrieren kann.
Trotz seiner geringen Größe von 4 Milliarden Parametern erzielt es eine Leistung, die mit deutlich größeren Konkurrenten wie rStar2-Agent-14B und ReTool-32B konkurrieren kann. | Bild: Yu et al.

Die Forschenden stellen ihre Trainingsdaten und Modelle der wissenschaftlichen Gemeinschaft zur Verfügung.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende haben systematisch agentische Modelle verglichen und stellen fest, dass Datenqualität, Algorithmus-Design und Denkweise entscheidend für erfolgreiches KI-Training sind. Echte, vielfältige Trainingsdaten und eine gezielte Aufgabenverteilung steigern die Lernleistung deutlich.
  • Das Team entwickelte Trainingsalgorithmen, bei denen eine Token-basierte Bewertung, optimierte Belohnungsstrukturen und spezielle Explorationsmechanismen kombiniert werden. Diese Methoden führten zu stabilerem Lernen und höheren Erfolgsraten als herkömmliche Ansätze.
  • Das daraus entstandene 4-Milliarden-Parameter-Modell DemyAgent-4B erreichte auf mehreren Benchmarks Leistungen, die mit deutlich größeren Modellen mit 14 bis 32 Milliarden Parametern mithalten können oder diese sogar übertreffen. Datensätze und Modelle sind frei verfügbar.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!