Inhalt
summary Zusammenfassung

Forscher haben eine neue Methode entwickelt, um KI-Modelle auf mathematisches Denken zu trainieren. Der Ansatz namens PRIME erzielt mit nur einem Zehntel der Trainingsdaten bessere Ergebnisse als bisherige Methoden.

Anzeige

Das auf dem Qwen-2.5-Math-7B-Modell basierende Modell Eurus-2-7B-PRIME erreichte nach dem PRIME-Training (Process Reinforcement through Implicit Rewards) deutlich bessere Ergebnisse als seine Ausgangsversion: Konkret verbesserte sich die durchschnittliche Leistung von 32,2 Prozent auf 48,9 Prozent - ein Plus von 16,7 Prozentpunkten über alle mathematischen Benchmarks hinweg.

Das deutlich größere GPT-4o erreicht im Durchschnitt 43,3 Prozent, Llama-3.1-70B-Instruct kommt auf 35,7 Prozent. Auch das spezialisierte Qwen-2.5-Math-7B-Instruct liegt mit 43,8 Prozent unter den Werten des PRIME-trainierten Modells.

Besonders deutlich zeigt sich der Fortschritt bei den AIME-Aufgaben (American Invitational Mathematics Examination), einem der anspruchsvollsten Mathematik-Wettbewerbe für Schüler. Hier verbesserte sich das Modell von ursprünglich 3,3 Prozent auf 26,7 Prozent korrekte Lösungen. Laut dem Team erreicht GPT-4o bei AIME nur 9,3 Prozent, Llama-3.1-70B-Instruct 16,7 Prozent und Qwen-2.5-Math-7B-Instruct 13,3 Prozent.

Anzeige
Anzeige

Effizienteres Lernen durch implizite Belohnungen

PRIME verändert, wie Sprachmodelle lernen: Anstatt nur am Ende einer Aufgabe zu bewerten, ob die Lösung richtig oder falsch ist, nutzt PRIME sogenannte "implizite Prozessbelohnungen". Diese geben dem Modell während des Lösungsprozesses im Training kontinuierlich Rückmeldung für jedes Token und nicht erst nach der Generierung für die gesamte Ausgabe.

Bemerkenswert ist auch der geringe Ressourcenbedarf: PRIME benötigt nur etwa ein Zehntel der Trainingsdaten im Vergleich zu anderen Systemen. Während das Vergleichsmodell Qwen2.5-Math-7B-Instruct mit 2,5 Millionen Datensätzen trainiert wurde, kam PRIME mit 230.000 aus.

Auch beim Reinforcement Learning zeigt sich die Effizienz: Pro Aufgabenstellung generiert PRIME nur vier verschiedene Lösungsversuche, aus denen das System lernt. Das Qwen-Modell benötigt dagegen 32 Versuche pro Aufgabe, um vergleichbare Lernerfolge zu erzielen.

Alle Daten sind auf GitHub verfügbar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher haben eine neue Methode namens PRIME entwickelt, um KI-Modelle effizienter und besser auf mathematisches Denken zu trainieren. Das Verfahren erzielt mit nur einem Zehntel der Trainingsdaten eine Leistungssteigerung von knapp 16 Prozent gegenüber herkömmlichen Methoden.
  • Das mit PRIME trainierte Modell Eurus-2-7B-PRIME erreichte über alle mathematischen Benchmarks hinweg eine durchschnittliche Leistung von etwa 49 Prozent und übertraf damit spezialisierte Modelle wie GPT-4o und Llama-3.1-70B-Instruct. Besonders deutlich war der Fortschritt bei den anspruchsvollen AIME-Aufgaben.
  • Das Team nutzt dafür "implizite Prozessbelohnungen", die dem Modell während des Lösungsprozesses kontinuierlich Rückmeldung geben. Dies ermöglicht ein effizienteres Training mit weniger Daten und Ressourcen. Die Forscher haben sowohl die Trainingsmethode als auch die verwendeten Daten öffentlich zugänglich gemacht.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!