Xiaomi will mit 7B-Modell zeigen, dass effizientes Training wichtiger ist als Parameterzahl

Mit dem Modell MiMo-7B will Xiaomi zeigen, dass sich mathematische und programmiertechnische Aufgaben auch mit vergleichsweise kleinen Sprachmodellen effektiv bewältigen lassen. Die Ergebnisse sollen laut dem Unternehmen mit größeren Konkurrenzmodellen mithalten – oder sie übertreffen.

Während viele aktuelle Open-Source-Reasoning-Modelle mit 32 Milliarden Parametern arbeiten, setzt Xiaomi auf eine 7B-Architektur und will diese durch abgestimmte Pre- und Post-Training-Verfahren effizient nutzen.

Laut den Forschenden wurde MiMo-7B mit rund 25 Billionen Tokens vortrainiert. Ziel sei gewesen, das Modell frühzeitig an Reasoning-Muster zu gewöhnen. Dazu habe das Team neue Extraktionswerkzeuge für mathematische Formeln und Programmcode entwickelt, etwa für HTML- und PDF-Inhalte. Zusätzlich sei eine dreistufige Datenmischung eingesetzt worden, in der unter anderem synthetisch erzeugte Aufgabenstellungen eine zentrale Rolle spielen sollen.

In einer letzten Vortrainingsphase sei der Anteil an Mathematik- und Code-Daten auf etwa 70 Prozent angehoben worden. Gleichzeitig habe man die Kontextlänge auf 32.768 Tokens erweitert, um auch längere Argumentationsstränge verarbeiten zu können.

Ein weiteres Element des Trainings ist laut Bericht das sogenannte Multi-Token Prediction (MTP). Dabei versucht das Modell, mehrere Folgetoken gleichzeitig zu antizipieren. Dies soll sowohl die Genauigkeit erhöhen als auch die Inferenz beschleunigen.

RL-Training mit testfallbasierter Belohnung

Nach dem Pre-Training wurden zwei Varianten des Modells per Reinforcement Learning (RL) weitertrainiert: MiMo-7B-RL-Zero direkt aus dem Basismodell und MiMo-7B-RL aus einer zuvor feinjustierten SFT-Version. Die Trainingsdaten umfassen laut dem Bericht 130.000 verifizierbare Aufgaben aus Mathematik und Programmierung.

Besonderes Augenmerk legt Xiaomi auf das Belohnungssystem: Für Code-Aufgaben wurde ein „Test Difficulty Driven Reward“ eingeführt, bei dem einzelne Testfälle nach Schwierigkeitsgrad gewichtet werden. Laut dem Forschungsteam soll dies das häufige Problem der „sparse rewards“ entschärfen, bei dem Modelle bei besonders schwierigen Aufgaben kaum Lernsignale erhalten.

Um die Stabilität während des Trainings zu erhöhen, kommt außerdem ein „Easy Data Re-Sampling“-Verfahren zum Einsatz. Dabei werden bereits gut gelöste Aufgaben gezielt mit geringer Wahrscheinlichkeit erneut verwendet, um die Sampling-Effizienz zu verbessern, ohne das Training zu verzerren.

Benchmarks: Übertrifft laut Bericht OpenAI o1-mini

In den im Bericht aufgeführten Auswertungen erreicht MiMo-7B-RL beispielsweise im Mathematik-Benchmark AIME 2025 eine Punktzahl von 55,4 - 4,7 Punkte mehr als OpenAI's o1-mini. Bei LiveCodeBench v5 liegt das Modell mit 57,8 Prozent deutlich vor Alibabas 32B-Modell QwQ-Preview mit 41,9 Prozent. Allerdings hat das Unternehmen mit dem Qwen3-30B-A3B bereits einen Nachfolger veröffentlicht, der im gleichen Benchmark 62,6 Prozent erreicht und auch das Qwen3-4B-Modell übertrifft mit 54,2 Prozent den deutlich größeren Vorgänger. Kurzum: MiMo-7B-RL ist konkurrenzfähig und reiht sich ein in den Trend zu kleinen, aber leistungsfähigen Reasoning-Modellen.

Empfehlung

KI-Forschung

Metas KI-Chef nennt generative KI eine Sackgasse - und liefert mit V-JEPA 2 die Alternative

Die Autoren betonen jedoch auch Herausforderungen: So sei es schwierig, während des RL-Trainings ein stabiles Gleichgewicht zwischen Mathematik- und Code-Kompetenz zu halten. Zudem seien Sprachmischungen – etwa chinesische Ausgaben bei englischen Aufgaben – ein Problem, das sich bislang nicht vollständig über RL lösen lasse.

Xiaomi hat die Modelle MiMo-7B-Base, MiMo-7B-RL-Zero und MiMo-7B-RL unter einer offenen Lizenz auf GitHub veröffentlicht. Das Unternehmen versteht das Projekt auch als methodischen Beitrag: Kleinere Modelle sollen durch gezielte Trainingsverfahren in Bereiche vordringen können, die bisher größeren Systemen vorbehalten waren.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Xiaomi will mit 7B-Modell zeigen, dass effizientes Training wichtiger ist als Parameterzahl

RL-Training mit testfallbasierter Belohnung

Benchmarks: Übertrifft laut Bericht OpenAI o1-mini

Metas KI-Chef nennt generative KI eine Sackgasse - und liefert mit V-JEPA 2 die Alternative

Microsofts MAI-DxO sorgt für präzisere KI-Diagnosen und spart fast 70 Prozent der Kosten

Forschende haben womöglich eine Leiter für die "Datenmauer" gefunden

OmniGen 2 vereint Bild und Text wie GPT-4o, ist aber Open Source

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Xiaomi will mit 7B-Modell zeigen, dass effizientes Training wichtiger ist als Parameterzahl

RL-Training mit testfallbasierter Belohnung

Benchmarks: Übertrifft laut Bericht OpenAI o1-mini

Artikel teilen

Bankverbindung