Mit dem Modell MiMo-7B will Xiaomi zeigen, dass sich mathematische und programmiertechnische Aufgaben auch mit vergleichsweise kleinen Sprachmodellen effektiv bewältigen lassen. Die Ergebnisse sollen laut dem Unternehmen mit größeren Konkurrenzmodellen mithalten – oder sie übertreffen.
Während viele aktuelle Open-Source-Reasoning-Modelle mit 32 Milliarden Parametern arbeiten, setzt Xiaomi auf eine 7B-Architektur und will diese durch abgestimmte Pre- und Post-Training-Verfahren effizient nutzen.
Laut den Forschenden wurde MiMo-7B mit rund 25 Billionen Tokens vortrainiert. Ziel sei gewesen, das Modell frühzeitig an Reasoning-Muster zu gewöhnen. Dazu habe das Team neue Extraktionswerkzeuge für mathematische Formeln und Programmcode entwickelt, etwa für HTML- und PDF-Inhalte. Zusätzlich sei eine dreistufige Datenmischung eingesetzt worden, in der unter anderem synthetisch erzeugte Aufgabenstellungen eine zentrale Rolle spielen sollen.
In einer letzten Vortrainingsphase sei der Anteil an Mathematik- und Code-Daten auf etwa 70 Prozent angehoben worden. Gleichzeitig habe man die Kontextlänge auf 32.768 Tokens erweitert, um auch längere Argumentationsstränge verarbeiten zu können.
Ein weiteres Element des Trainings ist laut Bericht das sogenannte Multi-Token Prediction (MTP). Dabei versucht das Modell, mehrere Folgetoken gleichzeitig zu antizipieren. Dies soll sowohl die Genauigkeit erhöhen als auch die Inferenz beschleunigen.
RL-Training mit testfallbasierter Belohnung
Nach dem Pre-Training wurden zwei Varianten des Modells per Reinforcement Learning (RL) weitertrainiert: MiMo-7B-RL-Zero direkt aus dem Basismodell und MiMo-7B-RL aus einer zuvor feinjustierten SFT-Version. Die Trainingsdaten umfassen laut dem Bericht 130.000 verifizierbare Aufgaben aus Mathematik und Programmierung.
Besonderes Augenmerk legt Xiaomi auf das Belohnungssystem: Für Code-Aufgaben wurde ein „Test Difficulty Driven Reward“ eingeführt, bei dem einzelne Testfälle nach Schwierigkeitsgrad gewichtet werden. Laut dem Forschungsteam soll dies das häufige Problem der „sparse rewards“ entschärfen, bei dem Modelle bei besonders schwierigen Aufgaben kaum Lernsignale erhalten.
Um die Stabilität während des Trainings zu erhöhen, kommt außerdem ein „Easy Data Re-Sampling“-Verfahren zum Einsatz. Dabei werden bereits gut gelöste Aufgaben gezielt mit geringer Wahrscheinlichkeit erneut verwendet, um die Sampling-Effizienz zu verbessern, ohne das Training zu verzerren.
Benchmarks: Übertrifft laut Bericht OpenAI o1-mini
In den im Bericht aufgeführten Auswertungen erreicht MiMo-7B-RL beispielsweise im Mathematik-Benchmark AIME 2025 eine Punktzahl von 55,4 - 4,7 Punkte mehr als OpenAI's o1-mini. Bei LiveCodeBench v5 liegt das Modell mit 57,8 Prozent deutlich vor Alibabas 32B-Modell QwQ-Preview mit 41,9 Prozent. Allerdings hat das Unternehmen mit dem Qwen3-30B-A3B bereits einen Nachfolger veröffentlicht, der im gleichen Benchmark 62,6 Prozent erreicht und auch das Qwen3-4B-Modell übertrifft mit 54,2 Prozent den deutlich größeren Vorgänger. Kurzum: MiMo-7B-RL ist konkurrenzfähig und reiht sich ein in den Trend zu kleinen, aber leistungsfähigen Reasoning-Modellen.
Die Autoren betonen jedoch auch Herausforderungen: So sei es schwierig, während des RL-Trainings ein stabiles Gleichgewicht zwischen Mathematik- und Code-Kompetenz zu halten. Zudem seien Sprachmischungen – etwa chinesische Ausgaben bei englischen Aufgaben – ein Problem, das sich bislang nicht vollständig über RL lösen lasse.
Xiaomi hat die Modelle MiMo-7B-Base, MiMo-7B-RL-Zero und MiMo-7B-RL unter einer offenen Lizenz auf GitHub veröffentlicht. Das Unternehmen versteht das Projekt auch als methodischen Beitrag: Kleinere Modelle sollen durch gezielte Trainingsverfahren in Bereiche vordringen können, die bisher größeren Systemen vorbehalten waren.