Inhalt
summary Zusammenfassung

Microsoft Research Asia stellt mit rStar-Math eine mehrstufige Trainingsmethode vor, mit der kleine Sprachmodelle (Small Language Models, SLMs) mit nur 1,5 bis 7 Milliarden Parametern die Leistung von OpenAIs o1-preview bei mathematischen Aufgaben erreichen oder sogar übertreffen können.

Anzeige

Kernstück des Trainings ist die Monte Carlo Tree Search (MCTS), eine durch AlphaGo bekannt gewordene Technik zur systematischen Erkundung von Lösungswegen. MCTS ermöglicht es dem System, während der Ausführung verschiedene Lösungspfade durchzuspielen und aus den erfolgreichsten zu lernen.

Eine zentrale Innovation von rStar-Math ist die Kombination von natürlichsprachlichen Erklärungen mit ausführbarem Python-Code. Für jeden Lösungsschritt muss das Modell nicht nur seine Gedankengänge erklären, sondern diese auch als funktionierenden Code formulieren.

Die Forscher nennen diese Technik "Code-augmentierte Chain-of-Thought": Die mathematischen Konzepte werden parallel in natürlicher Sprache und Python-Code ausgedrückt, wobei der Code als Kommentare die Erklärungen enthält. Nur Schritte, deren Code sich erfolgreich ausführen lässt, werden akzeptiert - eine Art automatische Qualitätskontrolle, die Fehler und Halluzinationen verhindern soll.

Anzeige
Anzeige
Mathematisches Beispiel mit Python-Code: Schrittweise Berechnung einer Entfernungsaufgabe mittels Pythagoras-Theorem.
Beispiel einer Code-augmentierten Chain-of-Thought: Die Lösung eines Pythagoras-Problems wird parallel in natürlicher Sprache und Python-Code entwickelt. | Bild: Guan, Zhang et al.

Diese strikte Verifikation durch Code-Ausführung ist gleichzeitig Stärke und Limitation: Der Ansatz funktioniert hervorragend bei mathematischen Textaufgaben, lässt sich aber nur schwer auf andere Bereiche übertragen. Bei geometrischen Aufgaben mit visuellen Komponenten oder in Domänen ohne eindeutige, programmierbare Lösungen wie dem Textverständnis stößt das System an seine Grenzen.

Die Forscher sehen jedoch Potential für die Anwendung bei Programmieraufgaben oder logischen Schlussfolgerungen, wo ähnliche Verifikationsmechanismen möglich wären.

Selbstverbesserung durch Bewertung und Evolution

Das Herzstück von rStar-Math ist ein spezielles Bewertungsmodell (Process Preference Model, PPM), das die Qualität einzelner Lösungsschritte einschätzt. Es analysiert die Ergebnisse zahlreicher MCTS-Durchläufe und vergibt "Q-Werte": Je häufiger ein Schritt zu einer korrekten Lösung führt, desto höher sein Wert. Statt absolute Bewertungen vorzunehmen, lernt das Modell durch den Vergleich von Lösungspaaren, erfolgreiche von weniger erfolgreichen Ansätzen zu unterscheiden.

Das Training erfolgt in vier Runden, beginnend mit einem Datensatz von 747.000 mathematischen Textaufgaben. In jeder Runde verbessern sich sowohl das Lösungsmodell als auch das Bewertungsmodell: Das System generiert mit MCTS schrittweise verifizierte Lösungen, die dann als Trainingsmaterial für die nächste Generation der Modelle dienen.

Technische Diagramme: Dreifache Darstellung des rStar-Math Systems mit Reasoning-Trajektorie, Q-Wert basierter Konstruktion und evolutionärem Lernprozess.
rStar-Math kombiniert Trainingsdatengenerierung mit Selbstbewertung zur Selbstoptimierung. | Bild: Guan, Zhang et al.

So kann das LLM mit jeder Runde komplexere Aufgaben lösen und die Qualität der erzeugten Lösungen steigt. Im Gegensatz zu anderen Ansätzen lernt das System aus seinen eigenen besten Lösungen, anstatt auf vorgegebene Musterlösungen großer Sprachmodelle angewiesen zu sein.

Empfehlung

Spitzenleistungen in einem engen Feld

Das 7-Milliarden-Parameter-Modell Qwen2.5-Math-7B erreichte nach dem Training mit rStar-Math im MATH-Benchmark eine Genauigkeit von 90 Prozent - eine Verbesserung von mehr als 30 Prozentpunkten gegenüber der Basisversion und 4,5 Prozent besser als OpenAIs o1-preview, auf Augenhöhe mit o1-mini. Selbst das kleinste getestete Modell Qwen-1.5B mit nur 1,5 Milliarden Parametern erreichte eine Genauigkeit von 88,6 Prozent.

Bei der amerikanischen Mathematikolympiade AIME 2024 löste das System durchschnittlich 8 von 15 Aufgaben - eine Leistung auf dem Niveau der besten 20 Prozent der teilnehmenden Schülerinnen und Schüler.

Vergleichstabelle: Leistungswerte verschiedener KI-Modelle bei mathematischen Aufgaben, rStar-Math führend in mehreren Kategorien.
Die mit rStar-Math optimierten kleinen LLMs können mit den zum Teil deutlich größeren Modellen mithalten oder diese sogar übertreffen. | Bild: Guan, Zhang et al.

Die Forscherinnen und Forscher testeten auch den Einfluss von test-time compute auf die Ergebnisse, dem neuen Skalierungsprinzip, dem auch die OpenAI o-Modelle folgen. Dabei erhält das Modell während der Ausführung mehr Zeit, um verschiedene Lösungswege durchzuspielen und zu bewerten.

Bereits mit nur vier Lösungsversuchen übertrifft rStar-Math die Leistung von o1-preview und nähert sich o1-mini an. Mit steigender Anzahl der Lösungsversuche - bis zu 64 pro Aufgabe - verbessern sich die Ergebnisse weiter.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Allerdings zeigen sich je nach Benchmark unterschiedliche Muster: Bei MATH, AIME und der Mathematik-Olympiade flacht die Verbesserung ab etwa 64 Versuchen ab. Bei College-Math-Aufgaben hingegen steigt die Erfolgsrate kontinuierlich weiter.

Liniendiagramme: Leistungsentwicklung verschiedener KI-Modelle bei steigender Anzahl von Testlösungen über vier mathematische Benchmarks
Mit mehr Lösungsversuchen durch mehr Rechenaufwand steigt auch die Genauigkeit in den Benchmarks. Nicht alle Benchmarks sind gleich gut skalierbar. | Bild: Guan, Zhang et al.

Neben der eingangs erwähnten hohen Abhängigkeit von der Code-Verifikation ist dieses Test-Time Compute-Prinzip auch ein möglicher Nachteil der Methode. Für jede Aufgabe werden Dutzende Lösungsversuche durchgeführt und ausgewertet, was zeitaufwendig und teuer ist. Die intensive Suche nach der besten Lösung ist der Preis für die hohe Genauigkeit.

Die Forscher betonen, dass rStar-Math eindrucksvoll zeigt, dass kleine Sprachmodelle eigenständig hochwertige Trainingsdaten erzeugen können, um sich selbst zu verbessern. Weitere Verbesserungen seien mit anspruchsvolleren mathematischen Aufgaben möglich.

Microsoft will KI effizienter machen

Die Entwicklung von rStar-Math ist Teil der umfassenderen Strategie von Microsoft, die Entwicklung kleinerer und effizienterer KI-Modelle voranzutreiben, um die Entwicklungs- und Betriebskosten zu senken. Erst kürzlich hatte das Unternehmen sein 14-Milliarden-Parameter-Modell Phi-4 unter der MIT-Lizenz als Open Source veröffentlicht.

Auch der Code und die Daten von rStar-Math sollen der Forschungsgemeinschaft zur Verfügung gestellt werden. Wie Projektleiterin Li Lyna Zhang auf Hugging Face mitteilt, durchläuft das Projekt derzeit noch den internen Freigabeprozess. Das Repository auf Github ist bereits angelegt, bleibt aber daher vorerst privat.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft Research Asia hat mit rStar-Math eine Methode entwickelt, die es kleinen Sprachmodellen mit nur 1,5 bis 7 Milliarden Parametern ermöglicht, bei mathematischen Aufgaben die Leistung von OpenAIs o1-preview / -mini zu erreichen oder zu übertreffen.
  • Das System verwendet die von Alpha Go bekannte Monte Carlo Tree Search (MCTS) Technik, probiert systematisch verschiedene Lösungen aus und lernt aus den Ergebnissen. Für jeden Lösungsschritt muss rStar-Math neben einer Begründung auch einen funktionierenden Python-Code schreiben, der auf Fehler überprüft wird.
  • Derzeit ist der rStar-Math-Ansatz auf mathematische Textaufgaben beschränkt und stark von der Möglichkeit der Code-Verifikation abhängig. Für geometrische Aufgaben mit visuellen Komponenten funktioniert das System noch nicht. Auch die Übertragung auf Bereiche ohne eindeutige Lösungen, wie das Textverständnis, könnte sich als schwierig erweisen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!