Anzeige
Skip to content

PRIME: KI-Modell lernt Mathematik mit einem Zehntel der üblichen Trainingsdaten

Image description
Midjourney prompted by THE DECODER

Forscher haben eine neue Methode entwickelt, um KI-Modelle auf mathematisches Denken zu trainieren. Der Ansatz namens PRIME erzielt mit nur einem Zehntel der Trainingsdaten bessere Ergebnisse als bisherige Methoden.

Das auf dem Qwen-2.5-Math-7B-Modell basierende Modell Eurus-2-7B-PRIME erreichte nach dem PRIME-Training (Process Reinforcement through Implicit Rewards) deutlich bessere Ergebnisse als seine Ausgangsversion: Konkret verbesserte sich die durchschnittliche Leistung von 32,2 Prozent auf 48,9 Prozent - ein Plus von 16,7 Prozentpunkten über alle mathematischen Benchmarks hinweg.

Das deutlich größere GPT-4o erreicht im Durchschnitt 43,3 Prozent, Llama-3.1-70B-Instruct kommt auf 35,7 Prozent. Auch das spezialisierte Qwen-2.5-Math-7B-Instruct liegt mit 43,8 Prozent unter den Werten des PRIME-trainierten Modells.

Besonders deutlich zeigt sich der Fortschritt bei den AIME-Aufgaben (American Invitational Mathematics Examination), einem der anspruchsvollsten Mathematik-Wettbewerbe für Schüler. Hier verbesserte sich das Modell von ursprünglich 3,3 Prozent auf 26,7 Prozent korrekte Lösungen. Laut dem Team erreicht GPT-4o bei AIME nur 9,3 Prozent, Llama-3.1-70B-Instruct 16,7 Prozent und Qwen-2.5-Math-7B-Instruct 13,3 Prozent.

Anzeige
DEC_D_Incontent-1

Effizienteres Lernen durch implizite Belohnungen

PRIME verändert, wie Sprachmodelle lernen: Anstatt nur am Ende einer Aufgabe zu bewerten, ob die Lösung richtig oder falsch ist, nutzt PRIME sogenannte "implizite Prozessbelohnungen". Diese geben dem Modell während des Lösungsprozesses im Training kontinuierlich Rückmeldung für jedes Token und nicht erst nach der Generierung für die gesamte Ausgabe.

Bemerkenswert ist auch der geringe Ressourcenbedarf: PRIME benötigt nur etwa ein Zehntel der Trainingsdaten im Vergleich zu anderen Systemen. Während das Vergleichsmodell Qwen2.5-Math-7B-Instruct mit 2,5 Millionen Datensätzen trainiert wurde, kam PRIME mit 230.000 aus.

Auch beim Reinforcement Learning zeigt sich die Effizienz: Pro Aufgabenstellung generiert PRIME nur vier verschiedene Lösungsversuche, aus denen das System lernt. Das Qwen-Modell benötigt dagegen 32 Versuche pro Aufgabe, um vergleichbare Lernerfolge zu erzielen.

Alle Daten sind auf GitHub verfügbar.

Anzeige
DEC_D_Incontent-2

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Notion

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren