Xiaomis neues Open-Weight-Modell MiMo-V2.5-Pro soll stundenlang autonom an Aufgaben arbeiten
Kurz & Knapp
- Xiaomi hat das KI-Modell MiMo-V2.5-Pro veröffentlicht, ein Mixture-of-Experts-Modell mit 1,02 Billionen Parametern, das auf langwierige, autonome Aufgaben ausgelegt ist.
- In internen Tests soll es etwa einen vollständigen Compiler in 4,3 Stunden programmiert haben.
- Das Modell verarbeitet bis zu eine Million Tokens am Stück und benötigt dabei 40 bis 60 Prozent weniger Tokens als westliche Konkurrenten wie Claude Opus 4.6 oder Gemini 3.1 Pro.
Mit MiMo-V2.5-Pro veröffentlicht Xiaomi ein KI-Modell, das laut interner Tests einen vollständigen Compiler in unter fünf Stunden schreibt und bei Coding-Benchmarks an Anthropics Claude Opus 4.6 heranreicht. Das Modell soll dabei deutlich weniger Tokens verbrauchen als westliche Konkurrenzprodukte.
MiMo-V2.5-Pro ist ein sogenanntes Mixture-of-Experts-Modell. Bei dieser Bauweise wird nicht das gesamte Modell für jede Anfrage genutzt, sondern nur ein Teil davon. Insgesamt umfasst MiMo-V2.5-Pro 1,02 Billionen Parameter, pro Anfrage sind 42 Milliarden davon aktiv. Laut MiMo-Team zielt die neue Version primär auf Aufgaben, die sich über Stunden ziehen und tausende Werkzeugaufrufe umfassen.

Das Kontextfenster kratzt am oberen Ende des momentan Machbaren: Die Hauptversion verarbeitet bis zu eine Million Tokens am Stück. Die Basis-Variante des Modells, ohne Nachtraining, ist auf 256.000 Tokens beschränkt.
Ein Compiler an einem Nachmittag
Den deutlichsten Sprung gegenüber dem Vorgänger zeigt Xiaomi an drei Beispielen. Im ersten ließ das Team das Modell ein vollständiges Compiler-Projekt aus dem Lehrbetrieb der Peking University bauen. Ein Informatikstudent dort benötigt für die Aufgabe laut Xiaomi mehrere Wochen.

MiMo-V2.5-Pro lieferte das Projekt in 4,3 Stunden über 672 Werkzeugaufrufe und erreichte 233 von 233 Punkten in der versteckten Testsuite. Auffällig ist laut Xiaomi nicht der Score, sondern das Vorgehen: Das Modell baute zunächst die komplette Pipeline als Gerüst und arbeitete dann jede Stufe schichtweise aus. Bereits der erste Compile-Durchlauf bestand 137 von 233 Tests. Eine spätere Umbauphase verursachte eine Regression, die das Modell selbst diagnostizierte und behob.
In einer zweiten Demonstration schrieb MiMo-V2.5-Pro nach wenigen Anweisungen einen Desktop-Videoeditor mit gut 8000 Codezeilen. Insgesamt arbeitete das Modell dafür 11,5 Stunden autonom und führte rund 1.870 Werkzeugaufrufe durch.
In einer dritten Demonstration verband Xiaomi das Modell über Claude Code mit einem Schaltungssimulator und ließ es einen Spannungsregler entwerfen. Innerhalb einer Stunde erfüllte das Ergebnis alle sechs technischen Vorgaben gleichzeitig. Vier davon übertrafen den ersten Entwurf des Modells um etwa eine Größenordnung.
Weniger Tokens für vergleichbare Ergebnisse
Xiaomi positioniert MiMo-V2.5-Pro primär über das Verhältnis von Leistung zu Tokenverbrauch. Auf dem hauseigenen Agenten-Benchmark ClawEval erreicht das Modell 64 Prozent Trefferquote bei rund 70.000 Tokens pro Aufgabenlauf. Das ist nach Angaben des Teams 40 bis 60 Prozent weniger als Claude Opus 4.6, Gemini 3.1 Pro und GPT-5.4 bei vergleichbaren Werten benötigen.

Auf den Coding-Benchmarks landet das Modell bei 78,9 Punkten auf SWE-bench Verified, 57,2 auf SWE-Bench Pro und 68,4 auf Terminal-Bench 2.0. Im hauseigenen MiMo Coding Bench kommt es auf 73,7 Punkte. Damit schließt es zu Claude Opus 4.6 (77,1) weiter auf, während Gemini 3.1 Pro mit 67,8 zurückfällt. Bei allgemeinen Agenten-Aufgaben erreicht MiMo-V2.5-Pro 1581 Elo-Punkte auf GDPVal-AA und 72,9 auf τ³-bench.
Besonders deutlich wird der Fortschritt beim langen Kontext. Auf dem Benchmark GraphWalks von OpenAI, der das Modell durch komplexe Knotengraphen navigieren lässt, kollabierte der Vorgänger MiMo-V2-Pro bei einer Million Tokens auf null Punkte. MiMo-V2.5-Pro erreicht im selben Test noch 0,37 für Breitensuche und 0,62 für Elternknoten-Abfragen.
Die technische Grundlage erbt das Modell vom Vorgänger MiMo-V2-Flash. Eine Mischung aus lokaler und globaler Aufmerksamkeit reduziert laut Xiaomi den Speicherbedarf bei langen Texten um fast das Siebenfache, ein Mechanismus zur parallelen Token-Vorhersage verdreifacht die Ausgabegeschwindigkeit. Das Vortraining lief auf 27 Billionen Tokens, das Kontextfenster wurde anschließend schrittweise auf bis zu eine Million Tokens erweitert.
Im Nachtraining setzt Xiaomi auf ein Lehrer-Schüler-Verfahren: Mehrere spezialisierte Modelle werden zunächst getrennt für Bereiche wie Mathematik, Sicherheit oder Werkzeugnutzung optimiert. Ein einzelnes Schülermodell lernt anschließend aus den eigenen Lösungsversuchen unter Anleitung aller Spezialisten und vereint deren Fähigkeiten.
Drei weitere Modelle im Schlepptau
Parallel zum Pro-Modell veröffentlicht Xiaomi drei weitere Systeme. MiMo-V2.5 ist eine kleinere Variante mit 310 Milliarden Parametern, von denen 15 Milliarden pro Anfrage aktiv sind. Sie kann Text, Bilder, Videos und Audio direkt verarbeiten und unterstützt ebenfalls bis zu eine Million Tokens Kontext. Trainiert wurde sie auf rund 48 Billionen Tokens. Auf dem Video-Benchmark Video-MME erreicht sie laut Xiaomi 87,7 Punkte und liegt damit auf einer Linie mit Gemini 3 Pro. Auch dieses Modell ist als Open Weight auf Hugging Face verfügbar.
Anders sieht es bei der Sprachsynthese aus. MiMo-V2.5-TTS ist eine Modellfamilie mit drei Varianten: eine mit fertigen Stimmen, eine, die neue Stimmen aus Textbeschreibungen erzeugt, und eine, die Stimmen aus kurzen Audioschnipseln klonen kann. Nutzer können die Aussprache mit eingestreuten Steueranweisungen wie [crying] oder [whispers] direkt im Text beeinflussen. Diese Modelle sind allerdings nicht offen verfügbar, sondern nur als API über die hauseigene Plattform nutzbar, derzeit zeitweise kostenlos.

Das Spracherkennungsmodell MiMo-V2.5-ASR wiederum ist offen verfügbar. Es funktioniert zweisprachig auf Chinesisch und Englisch, beherrscht laut Benchmarks auch chinesische Dialekte wie Wu, Kantonesisch und Hokkien und kann mit Sprachwechseln innerhalb eines Satzes sowie mit Liedtexten umgehen. Auf dem Open ASR Leaderboard erreicht es eine durchschnittliche Wortfehlerrate von 5,73 Prozent.

Chinas Open-Weight-Anbieter setzen auf Masse
Mit der Veröffentlichung verfolgt Xiaomis MiMo-Team weiter den Kurs, den es Ende 2025 eingeschlagen hat: viele Modelle gleichzeitig, alle weitgehend offen, alle auf eigenständig arbeitende KI-Agenten ausgelegt. Als nächste Schritte nennt das Team eine weitere Skalierung des Trainings sowie ein besseres Verständnis von Zusammenhängen über einzelne Sätze hinaus.
Vor kurzem stellte Xiaomi mit MiMo-V2-Pro, MiMo-V2-Omni und MiMo-V2-TTS erstmals ein vollständiges Drei-Modell-Paket vor. Das damalige Pro-Modell hatte zuvor anonym unter dem Codenamen "Hunter Alpha" auf der Plattform OpenRouter mehrere Tage die Nutzungs-Rangliste angeführt. Viele Nutzer hatten zunächst vermutet, es handle sich um ein neues Modell von Deepseek.
Inzwischen ist auch dieses erschienen: Deepseek hat mit Deepseek V4 das aktuell größte offene Modell auf dem Markt veröffentlicht und unterbietet die Konkurrenz beim Preis deutlich. Damit reiht sich MiMo-V2.5-Pro in ein Wettrüsten chinesischer Open-Weight-Anbieter ein, bei dem es zunehmend nicht mehr nur um Benchmark-Punkte geht, sondern um die Frage, wie günstig und wie lange ein Modell autonom an einer Aufgabe arbeiten kann.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren