Inhalt
summary Zusammenfassung

Mit dem Modell MiMo-7B will Xiaomi zeigen, dass sich mathematische und programmiertechnische Aufgaben auch mit vergleichsweise kleinen Sprachmodellen effektiv bewältigen lassen. Die Ergebnisse sollen laut dem Unternehmen mit größeren Konkurrenzmodellen mithalten – oder sie übertreffen.

Anzeige

Während viele aktuelle Open-Source-Reasoning-Modelle mit 32 Milliarden Parametern arbeiten, setzt Xiaomi auf eine 7B-Architektur und will diese durch abgestimmte Pre- und Post-Training-Verfahren effizient nutzen.

Laut den Forschenden wurde MiMo-7B mit rund 25 Billionen Tokens vortrainiert. Ziel sei gewesen, das Modell frühzeitig an Reasoning-Muster zu gewöhnen. Dazu habe das Team neue Extraktionswerkzeuge für mathematische Formeln und Programmcode entwickelt, etwa für HTML- und PDF-Inhalte. Zusätzlich sei eine dreistufige Datenmischung eingesetzt worden, in der unter anderem synthetisch erzeugte Aufgabenstellungen eine zentrale Rolle spielen sollen.

In einer letzten Vortrainingsphase sei der Anteil an Mathematik- und Code-Daten auf etwa 70 Prozent angehoben worden. Gleichzeitig habe man die Kontextlänge auf 32.768 Tokens erweitert, um auch längere Argumentationsstränge verarbeiten zu können.

Anzeige
Anzeige

Ein weiteres Element des Trainings ist laut Bericht das sogenannte Multi-Token Prediction (MTP). Dabei versucht das Modell, mehrere Folgetoken gleichzeitig zu antizipieren. Dies soll sowohl die Genauigkeit erhöhen als auch die Inferenz beschleunigen.

RL-Training mit testfallbasierter Belohnung

Nach dem Pre-Training wurden zwei Varianten des Modells per Reinforcement Learning (RL) weitertrainiert: MiMo-7B-RL-Zero direkt aus dem Basismodell und MiMo-7B-RL aus einer zuvor feinjustierten SFT-Version. Die Trainingsdaten umfassen laut dem Bericht 130.000 verifizierbare Aufgaben aus Mathematik und Programmierung.

Besonderes Augenmerk legt Xiaomi auf das Belohnungssystem: Für Code-Aufgaben wurde ein „Test Difficulty Driven Reward“ eingeführt, bei dem einzelne Testfälle nach Schwierigkeitsgrad gewichtet werden. Laut dem Forschungsteam soll dies das häufige Problem der „sparse rewards“ entschärfen, bei dem Modelle bei besonders schwierigen Aufgaben kaum Lernsignale erhalten.

Um die Stabilität während des Trainings zu erhöhen, kommt außerdem ein „Easy Data Re-Sampling“-Verfahren zum Einsatz. Dabei werden bereits gut gelöste Aufgaben gezielt mit geringer Wahrscheinlichkeit erneut verwendet, um die Sampling-Effizienz zu verbessern, ohne das Training zu verzerren.

Benchmarks: Übertrifft laut Bericht OpenAI o1-mini

In den im Bericht aufgeführten Auswertungen erreicht MiMo-7B-RL beispielsweise im Mathematik-Benchmark AIME 2025 eine Punktzahl von 55,4 - 4,7 Punkte mehr als OpenAI's o1-mini. Bei LiveCodeBench v5 liegt das Modell mit 57,8 Prozent deutlich vor Alibabas 32B-Modell QwQ-Preview mit 41,9 Prozent. Allerdings hat das Unternehmen mit dem Qwen3-30B-A3B bereits einen Nachfolger veröffentlicht, der im gleichen Benchmark 62,6 Prozent erreicht und auch das Qwen3-4B-Modell übertrifft mit 54,2 Prozent den deutlich größeren Vorgänger. Kurzum: MiMo-7B-RL ist konkurrenzfähig und reiht sich ein in den Trend zu kleinen, aber leistungsfähigen Reasoning-Modellen.

Empfehlung

Die Autoren betonen jedoch auch Herausforderungen: So sei es schwierig, während des RL-Trainings ein stabiles Gleichgewicht zwischen Mathematik- und Code-Kompetenz zu halten. Zudem seien Sprachmischungen – etwa chinesische Ausgaben bei englischen Aufgaben – ein Problem, das sich bislang nicht vollständig über RL lösen lasse.

Xiaomi hat die Modelle MiMo-7B-Base, MiMo-7B-RL-Zero und MiMo-7B-RL unter einer offenen Lizenz auf GitHub veröffentlicht. Das Unternehmen versteht das Projekt auch als methodischen Beitrag: Kleinere Modelle sollen durch gezielte Trainingsverfahren in Bereiche vordringen können, die bisher größeren Systemen vorbehalten waren.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Xiaomi hat das Sprachmodell MiMo-7B entwickelt, das trotz vergleichsweise geringer Größe mit nur 7 Milliarden Parametern bei mathematischen und Programmieraufgaben mit deutlich größeren Modellen konkurrieren oder diese übertreffen soll.
  • Das Modell wurde mit 25 Billionen Tokens vortrainiert und nutzt spezielle Techniken wie Multi-Token Prediction, testfallbasierte Belohnungssysteme beim Reinforcement Learning und eine Kontextlänge von 32.768 Tokens für längere Argumentationsketten.
  • In Benchmarks erreicht MiMo-7B-RL laut Xiaomi im Mathematik-Test AIME 2025 eine um 4,7 Punkte höhere Wertung als OpenAI's o1-mini und liegt bei LiveCodeBench v5 mit 57,8 Prozent vor Alibabas 32B-Modell QwQ-Preview (41,9 Prozent). Die drei Modellvarianten wurden unter offener Lizenz auf GitHub veröffentlicht.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!