Forscher haben eine neue Methode entwickelt, um KI-Modelle auf mathematisches Denken zu trainieren. Der Ansatz namens PRIME erzielt mit nur einem Zehntel der Trainingsdaten bessere Ergebnisse als bisherige Methoden.
Das auf dem Qwen-2.5-Math-7B-Modell basierende Modell Eurus-2-7B-PRIME erreichte nach dem PRIME-Training (Process Reinforcement through Implicit Rewards) deutlich bessere Ergebnisse als seine Ausgangsversion: Konkret verbesserte sich die durchschnittliche Leistung von 32,2 Prozent auf 48,9 Prozent - ein Plus von 16,7 Prozentpunkten über alle mathematischen Benchmarks hinweg.
Das deutlich größere GPT-4o erreicht im Durchschnitt 43,3 Prozent, Llama-3.1-70B-Instruct kommt auf 35,7 Prozent. Auch das spezialisierte Qwen-2.5-Math-7B-Instruct liegt mit 43,8 Prozent unter den Werten des PRIME-trainierten Modells.
Besonders deutlich zeigt sich der Fortschritt bei den AIME-Aufgaben (American Invitational Mathematics Examination), einem der anspruchsvollsten Mathematik-Wettbewerbe für Schüler. Hier verbesserte sich das Modell von ursprünglich 3,3 Prozent auf 26,7 Prozent korrekte Lösungen. Laut dem Team erreicht GPT-4o bei AIME nur 9,3 Prozent, Llama-3.1-70B-Instruct 16,7 Prozent und Qwen-2.5-Math-7B-Instruct 13,3 Prozent.
Effizienteres Lernen durch implizite Belohnungen
PRIME verändert, wie Sprachmodelle lernen: Anstatt nur am Ende einer Aufgabe zu bewerten, ob die Lösung richtig oder falsch ist, nutzt PRIME sogenannte "implizite Prozessbelohnungen". Diese geben dem Modell während des Lösungsprozesses im Training kontinuierlich Rückmeldung für jedes Token und nicht erst nach der Generierung für die gesamte Ausgabe.
Bemerkenswert ist auch der geringe Ressourcenbedarf: PRIME benötigt nur etwa ein Zehntel der Trainingsdaten im Vergleich zu anderen Systemen. Während das Vergleichsmodell Qwen2.5-Math-7B-Instruct mit 2,5 Millionen Datensätzen trainiert wurde, kam PRIME mit 230.000 aus.
Auch beim Reinforcement Learning zeigt sich die Effizienz: Pro Aufgabenstellung generiert PRIME nur vier verschiedene Lösungsversuche, aus denen das System lernt. Das Qwen-Modell benötigt dagegen 32 Versuche pro Aufgabe, um vergleichbare Lernerfolge zu erzielen.
Alle Daten sind auf GitHub verfügbar.