Chinesisches KI-Unternehmen Moonshot AI will mit Agenten-Schwärmen die Konkurrenz überholen
Kurz & Knapp
- Das chinesische Unternehmen Moonshot AI hat Kimi K2.5 veröffentlicht, ein Open-Weight-Modell, das komplexe Aufgaben automatisch auf bis zu 100 parallel arbeitende Sub-Agenten verteilt und so die Ausführungszeit laut Hersteller um das 4,5-Fache reduziert.
- Für das Training nutzt Moonshot AI eine Methode namens "Parallel-Agent Reinforcement Learning", bei der ein Orchestrator lernt, Aufgaben auf spezialisierte Agenten wie "KI-Forscher" oder "Faktenprüfer" aufzuteilen.
- In Benchmarks übertrifft K2.5 bei agentischen Aufgaben GPT-5.2 und Gemini 3 Pro, liegt bei Software-Engineering-Tests jedoch hinter Claude 4.5 Opus und GPT-5.2.
Moonshot AI hat Kimi K2.5 veröffentlicht, das laut eigenen Angaben leistungsstärkste Open-Weight-Modell. Das Modell kann eigenständig bis zu 100 KI-Agenten koordinieren, die parallel an komplexen Aufgaben arbeiten.
Moonshot AI hat mit Kimi K2.5 ein multimodales Sprachmodell vorgestellt, das auf dem im Juli vorgestellten Vorgänger Kimi K2 aufbaut.
Die zentrale Neuerung ist ein sogenannter "Agent Swarm" - ein System, bei dem das Modell selbstständig bis zu 100 Sub-Agenten koordiniert, die parallel an einer Aufgabe arbeiten. Diese Agenten führen laut Moonshot AI bis zu 1.500 Tool-Aufrufe aus und reduzieren die Ausführungszeit im Vergleich zu einem einzelnen Agenten um das bis zu 4,5-Fache.
Das Modell wurde laut Entwickler mit etwa 15 Billionen Token weitertrainiert und soll das "leistungsstärkste Open-Source-Modell" sein. Das soll sich etwa bei der Umsetzung optisch ansprechender Frontend-Designs bemerkbar machen.
K2.5 nutzt eine Mixture-of-Experts-Architektur mit insgesamt einer Billion Parametern, von denen pro Token 32 Milliarden aktiv sind. Das Modell verfügt über 384 Experten, von denen jeweils acht pro Token ausgewählt werden. Als Vision Encoder kommt MoonViT mit 400 Millionen Parametern zum Einsatz. Das Kontextfenster umfasst 256.000 Token.
Orchestrator lernt, Arbeit zu verteilen
Für das Training hat Moonshot AI eine Methode namens "Parallel-Agent Reinforcement Learning" (PARL) entwickelt. Dabei lernt ein trainierbarer Orchestrator-Agent, Aufgaben in parallelisierbare Teilaufgaben zu zerlegen. Diese werden von dynamisch erzeugten Sub-Agenten ausgeführt, die jeweils spezialisierte Rollen übernehmen, etwa als "KI-Forscher", "Physik-Forscher" oder "Faktenprüfer".

Ein häufiges Problem bei solchen Systemen ist laut Moonshot AI der "Serial Collapse". Der Orchestrator verfällt dabei in sequenzielle Ausführung, obwohl parallele Kapazitäten vorhanden wären. Um dem entgegenzuwirken, verwendet PARL ein gestuftes Belohnungssystem, das früh im Training Parallelität belohnt und später den Fokus auf Aufgabenqualität verschiebt.

Als Beispiel demonstriert das Unternehmen eine Aufgabe, bei der K2.5 die drei führenden YouTube-Creator in 100 verschiedenen Nischen identifizieren soll. Das Modell hat dafür eigenständig 100 Sub-Agenten erstellt, die parallel recherchierten und die Ergebnisse in einer strukturierten Tabelle zusammenführten.
Coding mit visueller Eingabe als Schwerpunkt
Moonshot AI positioniert K2.5 als stark im Bereich Coding, insbesondere bei der Frontend-Entwicklung. Das Modell soll aus einfachen Textbeschreibungen komplette Benutzeroberflächen mit interaktiven Layouts und Animationen erstellen können.
K2.5 kann zudem über Bilder und Videos schlussfolgern und daraus Code generieren. Das Unternehmen demonstriert etwa, wie das Modell eine Website aus einem Video rekonstruiert oder den kürzesten Weg durch ein Labyrinth-Bild berechnet und markiert.
Benchmark-Ergebnisse zeigen gemischtes Bild
In den von Moonshot AI veröffentlichten Benchmarks erreicht K2.5 auf einigen Tests Spitzenwerte, liegt auf anderen jedoch hinter der Konkurrenz. Bei agentischen Aufgaben schneidet K2.5 teils deutlich besser ab als die Konkurrenz. Auf BrowseComp erreicht das Modell 74,9 Prozent, während GPT-5.2 bei 65,8 Prozent und Gemini 3 Pro bei 59,2 Prozent liegen. Auch bei DeepSearchQA führt K2.5 mit 77,1 Prozent vor Claude 4.5 Opus mit 76,1 Prozent.

Auf dem SWE-Bench Verified für Software-Engineering-Aufgaben erzielt K2.5 hingegen 76,8 Prozent. GPT-5.2 und Claude 4.5 Opus kommen hier auf 80 beziehungsweise 80,9 Prozent. Bei den multilingualen SWE-Bench-Tests liegt Claude 4.5 Opus mit 77,5 Prozent vorn, gefolgt von K2.5 mit 73 Prozent.
Bei Bild- und Video-Benchmarks bewegt sich K2.5 auf Augenhöhe mit der Konkurrenz. Auf MMMU Pro erreicht es 78,5 Prozent, knapp hinter Gemini 3 Pro mit 81 Prozent. Bei VideoMMMU liegt K2.5 mit 86,6 Prozent leicht vor GPT-5.2, aber knapp hinter Gemini 3 Pro.
K2.5 ist über Kimi.com, die Kimi-App und eine API verfügbar, die Gewichte stehen auf Hugging Face zum Download bereit. Der Agent Swarm befindet sich derzeit in der Beta-Phase und steht zahlenden Nutzern mit kostenlosen Credits zur Verfügung. Vier Modi stehen zur Auswahl: K2.5 Instant, K2.5 Thinking, K2.5 Agent und K2.5 Agent Swarm.
Moonshot AI wurde 2023 gegründet und hat sich mit der Kimi-Modellfamilie schnell als einer der führenden chinesischen Anbieter von Sprachmodellen positioniert. Das Unternehmen konkurriert sowohl mit US-amerikanischen Anbietern wie OpenAI und Anthropic als auch mit chinesischen Konkurrenten wie Deepseek und dessen V3.2-Modell .
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren