Anzeige
Skip to content

Xiaomis neues Open-Weight-Modell MiMo-V2.5-Pro soll stundenlang autonom an Aufgaben arbeiten

Image description
Xiaomi

Kurz & Knapp

  • Xiaomi hat das KI-Modell MiMo-V2.5-Pro veröffentlicht, ein Mixture-of-Experts-Modell mit 1,02 Billionen Parametern, das auf langwierige, autonome Aufgaben ausgelegt ist.
  • In internen Tests soll es etwa einen vollständigen Compiler in 4,3 Stunden programmiert haben.
  • Das Modell verarbeitet bis zu eine Million Tokens am Stück und benötigt dabei 40 bis 60 Prozent weniger Tokens als westliche Konkurrenten wie Claude Opus 4.6 oder Gemini 3.1 Pro.

Mit MiMo-V2.5-Pro veröffentlicht Xiaomi ein KI-Modell, das laut interner Tests einen vollständigen Compiler in unter fünf Stunden schreibt und bei Coding-Benchmarks an Anthropics Claude Opus 4.6 heranreicht. Das Modell soll dabei deutlich weniger Tokens verbrauchen als westliche Konkurrenzprodukte.

MiMo-V2.5-Pro ist ein sogenanntes Mixture-of-Experts-Modell. Bei dieser Bauweise wird nicht das gesamte Modell für jede Anfrage genutzt, sondern nur ein Teil davon. Insgesamt umfasst MiMo-V2.5-Pro 1,02 Billionen Parameter, pro Anfrage sind 42 Milliarden davon aktiv. Laut MiMo-Team zielt die neue Version primär auf Aufgaben, die sich über Stunden ziehen und tausende Werkzeugaufrufe umfassen.

Architekturdiagramm von MiMo-V2.5. Links der Audio-Pfad mit Audio Tokenizer, Local Transformer und Audio Projector, mittig der visuelle Pfad mit MiMo ViT und Visual Projector, rechts der Text-Pfad. Alle drei Eingänge münden im MiMo Hybrid-SWA Backbone, von dem oben LM Head und MTP Block abzweigen.
Audio, Bild und Text werden über jeweils eigene Encoder in ein Format gebracht, das das Sprachmodell versteht. Drei Übersetzer also, die alle in dasselbe Backbone einspeisen. | Bild: Xiaomi

Das Kontextfenster kratzt am oberen Ende des momentan Machbaren: Die Hauptversion verarbeitet bis zu eine Million Tokens am Stück. Die Basis-Variante des Modells, ohne Nachtraining, ist auf 256.000 Tokens beschränkt.

Ein Compiler an einem Nachmittag

Den deutlichsten Sprung gegenüber dem Vorgänger zeigt Xiaomi an drei Beispielen. Im ersten ließ das Team das Modell ein vollständiges Compiler-Projekt aus dem Lehrbetrieb der Peking University bauen. Ein Informatikstudent dort benötigt für die Aufgabe laut Xiaomi mehrere Wochen.

Anzeige
DEC_D_Incontent-1

Liniendiagramm zeigt Anstieg der bestandenen Tests über vier Entwicklungsphasen eines Compiler-Projekts.
Über 4,3 Stunden hinweg arbeitete MiMo-V2.5-Pro den Compiler in vier Phasen ab und steigerte die Testabdeckung von 59 Prozent beim ersten Compile auf 100 Prozent. | Bild: Xiaomi

MiMo-V2.5-Pro lieferte das Projekt in 4,3 Stunden über 672 Werkzeugaufrufe und erreichte 233 von 233 Punkten in der versteckten Testsuite. Auffällig ist laut Xiaomi nicht der Score, sondern das Vorgehen: Das Modell baute zunächst die komplette Pipeline als Gerüst und arbeitete dann jede Stufe schichtweise aus. Bereits der erste Compile-Durchlauf bestand 137 von 233 Tests. Eine spätere Umbauphase verursachte eine Regression, die das Modell selbst diagnostizierte und behob.

In einer zweiten Demonstration schrieb MiMo-V2.5-Pro nach wenigen Anweisungen einen Desktop-Videoeditor mit gut 8000 Codezeilen. Insgesamt arbeitete das Modell dafür 11,5 Stunden autonom und führte rund 1.870 Werkzeugaufrufe durch.

In einer dritten Demonstration verband Xiaomi das Modell über Claude Code mit einem Schaltungssimulator und ließ es einen Spannungsregler entwerfen. Innerhalb einer Stunde erfüllte das Ergebnis alle sechs technischen Vorgaben gleichzeitig. Vier davon übertrafen den ersten Entwurf des Modells um etwa eine Größenordnung.

Weniger Tokens für vergleichbare Ergebnisse

Xiaomi positioniert MiMo-V2.5-Pro primär über das Verhältnis von Leistung zu Tokenverbrauch. Auf dem hauseigenen Agenten-Benchmark ClawEval erreicht das Modell 64 Prozent Trefferquote bei rund 70.000 Tokens pro Aufgabenlauf. Das ist nach Angaben des Teams 40 bis 60 Prozent weniger als Claude Opus 4.6, Gemini 3.1 Pro und GPT-5.4 bei vergleichbaren Werten benötigen.

Anzeige
DEC_D_Incontent-2

Acht Balkendiagramme. Oben die Coding-Agent-Benchmarks SWE-Bench Pro (MiMo-V2.5-Pro 57,2 vs Claude Opus 4.6 57,3), MiMo Coding Bench (73,7 vs 77,1), Terminal-Bench 2.0 (68,4 vs 65,4) und FrontierSWE Implementation Rank (#3,4 vs #2,0). Unten die General-Agent- und Reasoning-Benchmarks GDPVal-AA Elo (1581), τ3-bench (72,9), Claw-Eval pass^3 (63,8) und Humanity's Last Exam (48,0 mit Tools).
Auf SWE-Bench Pro liegen MiMo-V2.5-Pro und Claude Opus 4.6 nahezu gleichauf, auf Terminal-Bench 2.0 zieht das Xiaomi-Modell vorbei.

Auf den Coding-Benchmarks landet das Modell bei 78,9 Punkten auf SWE-bench Verified, 57,2 auf SWE-Bench Pro und 68,4 auf Terminal-Bench 2.0. Im hauseigenen MiMo Coding Bench kommt es auf 73,7 Punkte. Damit schließt es zu Claude Opus 4.6 (77,1) weiter auf, während Gemini 3.1 Pro mit 67,8 zurückfällt. Bei allgemeinen Agenten-Aufgaben erreicht MiMo-V2.5-Pro 1581 Elo-Punkte auf GDPVal-AA und 72,9 auf τ³-bench.

Besonders deutlich wird der Fortschritt beim langen Kontext. Auf dem Benchmark GraphWalks von OpenAI, der das Modell durch komplexe Knotengraphen navigieren lässt, kollabierte der Vorgänger MiMo-V2-Pro bei einer Million Tokens auf null Punkte. MiMo-V2.5-Pro erreicht im selben Test noch 0,37 für Breitensuche und 0,62 für Elternknoten-Abfragen.

Die technische Grundlage erbt das Modell vom Vorgänger MiMo-V2-Flash. Eine Mischung aus lokaler und globaler Aufmerksamkeit reduziert laut Xiaomi den Speicherbedarf bei langen Texten um fast das Siebenfache, ein Mechanismus zur parallelen Token-Vorhersage verdreifacht die Ausgabegeschwindigkeit. Das Vortraining lief auf 27 Billionen Tokens, das Kontextfenster wurde anschließend schrittweise auf bis zu eine Million Tokens erweitert.

Im Nachtraining setzt Xiaomi auf ein Lehrer-Schüler-Verfahren: Mehrere spezialisierte Modelle werden zunächst getrennt für Bereiche wie Mathematik, Sicherheit oder Werkzeugnutzung optimiert. Ein einzelnes Schülermodell lernt anschließend aus den eigenen Lösungsversuchen unter Anleitung aller Spezialisten und vereint deren Fähigkeiten.

Drei weitere Modelle im Schlepptau

Parallel zum Pro-Modell veröffentlicht Xiaomi drei weitere Systeme. MiMo-V2.5 ist eine kleinere Variante mit 310 Milliarden Parametern, von denen 15 Milliarden pro Anfrage aktiv sind. Sie kann Text, Bilder, Videos und Audio direkt verarbeiten und unterstützt ebenfalls bis zu eine Million Tokens Kontext. Trainiert wurde sie auf rund 48 Billionen Tokens. Auf dem Video-Benchmark Video-MME erreicht sie laut Xiaomi 87,7 Punkte und liegt damit auf einer Linie mit Gemini 3 Pro. Auch dieses Modell ist als Open Weight auf Hugging Face verfügbar.

Anders sieht es bei der Sprachsynthese aus. MiMo-V2.5-TTS ist eine Modellfamilie mit drei Varianten: eine mit fertigen Stimmen, eine, die neue Stimmen aus Textbeschreibungen erzeugt, und eine, die Stimmen aus kurzen Audioschnipseln klonen kann. Nutzer können die Aussprache mit eingestreuten Steueranweisungen wie [crying] oder [whispers] direkt im Text beeinflussen. Diese Modelle sind allerdings nicht offen verfügbar, sondern nur als API über die hauseigene Plattform nutzbar, derzeit zeitweise kostenlos.

Screenshot des MiMo Studio mit ausgeklapptem Modell-Dropdown. Rot markiert sind der MiMo-Chat-Bereich in der linken Seitenleiste sowie die drei TTS-Varianten V2.5-TTS, V2.5-TTS-VoiceDesign und V2.5-TTS-VoiceClone in der Modellliste.
Die drei TTS-Varianten laufen ausschließlich über die API und das hauseigene MiMo‑Studio, derzeit kostenlos. Open Weights gibt es nicht. | Bild: Xiaomi

Das Spracherkennungsmodell MiMo-V2.5-ASR wiederum ist offen verfügbar. Es funktioniert zweisprachig auf Chinesisch und Englisch, beherrscht laut Benchmarks auch chinesische Dialekte wie Wu, Kantonesisch und Hokkien und kann mit Sprachwechseln innerhalb eines Satzes sowie mit Liedtexten umgehen. Auf dem Open ASR Leaderboard erreicht es eine durchschnittliche Wortfehlerrate von 5,73 Prozent.

Sechs Balkendiagramme mit Word Error Rates für MiMo-V2.5-ASR im Vergleich zu Qwen3-ASR-1.7B, Seed-ASR 2.0, Whisper-Large-V3, FunASR-1.5 und Gemini-3.1-Pro. MiMo erreicht 4,20 Prozent auf Chinesisch, 5,73 Prozent auf Englisch, 9,14 Prozent auf Dialekten, 5,21 Prozent bei Liedtexten und 11,48 Prozent auf internen Datensätzen
Bei Dialekten und chinesischen Liedtexten ist der Abstand zu Gemini 3.1 Pro mit über 16 Prozentpunkten am größten. Niedrigere Werte sind besser. | Bild: Xiaomi

Chinas Open-Weight-Anbieter setzen auf Masse

Mit der Veröffentlichung verfolgt Xiaomis MiMo-Team weiter den Kurs, den es Ende 2025 eingeschlagen hat: viele Modelle gleichzeitig, alle weitgehend offen, alle auf eigenständig arbeitende KI-Agenten ausgelegt. Als nächste Schritte nennt das Team eine weitere Skalierung des Trainings sowie ein besseres Verständnis von Zusammenhängen über einzelne Sätze hinaus.

Vor kurzem stellte Xiaomi mit MiMo-V2-Pro, MiMo-V2-Omni und MiMo-V2-TTS erstmals ein vollständiges Drei-Modell-Paket vor. Das damalige Pro-Modell hatte zuvor anonym unter dem Codenamen "Hunter Alpha" auf der Plattform OpenRouter mehrere Tage die Nutzungs-Rangliste angeführt. Viele Nutzer hatten zunächst vermutet, es handle sich um ein neues Modell von Deepseek.

Inzwischen ist auch dieses erschienen: Deepseek hat mit Deepseek V4 das aktuell größte offene Modell auf dem Markt veröffentlicht und unterbietet die Konkurrenz beim Preis deutlich. Damit reiht sich MiMo-V2.5-Pro in ein Wettrüsten chinesischer Open-Weight-Anbieter ein, bei dem es zunehmend nicht mehr nur um Benchmark-Punkte geht, sondern um die Frage, wie günstig und wie lange ein Modell autonom an einer Aufgabe arbeiten kann.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.