Qwen3.7-Max löst komplexe Entwicklungsaufgabe in 1158 autonomen Schritten
Mit Qwen3.7-Max stellt Alibabas Qwen-Team ein proprietäres Modell vor, das auf agentische Aufgaben zugeschnitten ist. Ein Praxistest zeigt das Modell bei einer 35-stündigen, vollständig autonomen Kernel-Optimierung.
Wie schon bei den Vorläufern Qwen3-Max und Qwen3.6-Plus erscheint auch die neue Max-Variante ausschließlich über die API von Alibaba Cloud Model Studio. Lange Zeit hatte Alibaba seine Qwen-Modelle als Open Source veröffentlicht, doch dieser Kurs hat sich zuletzt geändert. Das letzte offen veröffentlichte Flaggschiff war Qwen3.5-397B-A17B vom Februar 2026.
Qwen3.7-Max unterstützt OpenAI- und Anthropic-kompatible Schnittstellen und lässt sich direkt in Claude Code, OpenClaw oder Qwen Code einbinden. Laut Qwen-Team zielt das Modell auf vier Anwendungsfelder. Es soll als Coding-Agent vom Frontend-Prototyp bis zu komplexen Software-Projekten mit mehreren Dateien funktionieren, Büroaufgaben über externe Werkzeuge automatisieren, über lange Zeiträume autonom arbeiten und dabei in unterschiedlichen Agenten-Frameworks möglichst gleichbleibende Leistung zeigen.
Ein Kernel-Experiment über 35 Stunden
Qwen3.7-Max sollte für die Open-Source-Inferenz-Software SGLang einen hardwarenahen Kernel für die Attention-Berechnung optimieren. Als Hardware diente eine Cloud-Instanz mit T-Head-ZW-M890-Beschleunigern, einer KI-Chip-Plattform aus Alibabas eigenem Halbleiterhaus.
Diese Architektur hatte das Modell laut Qwen-Team im Training nie gesehen. Es startete ohne Messdaten, ohne Hardware-Dokumentation und ohne Beispiel-Code, lediglich mit der bestehenden, in der Programmiersprache Triton geschriebenen Referenzimplementierung als Ausgangspunkt.
Über rund 35 Stunden kontinuierlicher autonomer Arbeit führte das Modell 432 Tests des Kernels mit insgesamt 1158 Werkzeugaufrufen durch. Es kompilierte, vermaß und überarbeitete den Code iterativ, diagnostizierte Fehler beim Übersetzen und benannte Performance-Engpässe selbst. Am Ende stand laut den Qwen-Forschern ein durchschnittlich zehnfacher Geschwindigkeitsgewinn gegenüber der Referenzimplementierung.
Im gleichen Setup erreichten Konkurrenzmodelle deutlich geringere Werte. GLM 5.1 kam auf einen 7,3-fachen Speedup, Kimi K2.6 auf das Fünffache, DeepSeek V4 Pro auf das 3,3-fache und das Vorgängermodell Qwen3.6-Plus nur auf das 1,1-fache. Modelle, die früher abbrachen, beendeten ihre Sitzung freiwillig, nachdem sie fünf aufeinanderfolgende Runden keine Werkzeugaufrufe mehr ausgelöst hatten. Auf dem standardisierten KernelBench-L3-Benchmark erzeugt Qwen3.7-Max nach eigenen Angaben in 96 Prozent der Fälle beschleunigte Kernel, knapp hinter Anthropics Opus 4.6 mit 98 Prozent.
Trennung von Aufgabe, Werkzeug-Umgebung und Prüfer
Methodisch baut Qwen3.7-Max auf einem Trainingsansatz auf, den das Team bereits mit Qwen3.5 eingeführt hatte. Jede Trainingsaufgabe wird in drei unabhängige Bestandteile zerlegt. Die eigentliche Aufgabe, die Werkzeug-Umgebung und der Prüfer für das Ergebnis lassen sich beliebig neu kombinieren.

Dieselbe Aufgabe wird also in verschiedenen Werkzeug-Umgebungen geübt und mit verschiedenen Prüfverfahren bewertet. Das Modell soll dadurch gezwungen werden, allgemein anwendbare Lösungsstrategien zu lernen statt Abkürzungen, die nur in einer bestimmten Umgebung funktionieren. In QwenClawBench und CoWorkBench bleibe die Leistung von Qwen3.7-Max deshalb unabhängig von der Testumgebung stabil, so das Team.
Reward-Hacking-Überwachung in eigener Sache
Das Qwen-Team setzte Qwen3.7-Max auch als Beobachter im eigenen Training ein. Über mehr als 80 Stunden überwachte das Modell Trainingsläufe für Software-Engineering-Aufgaben und führte mehr als 10.000 Auswertungen durch. Dabei suchte es nach Tricks, mit denen das trainierte Modell sich Belohnungen erschleicht, etwa indem es die korrekten Antworten direkt von GitHub abruft. Insgesamt formulierte Qwen3.7-Max 13 neue Erkennungsregeln und markierte 1.618 solcher Fälle.

Ein Jahr in der Simulation
Für die Bewertung langfristiger Planung nutzte das Team YC-Bench, einen Benchmark, der den einjährigen Lebenszyklus eines Startups simuliert. Das Modell muss über hunderte Entscheidungsrunden hinweg Personal verwalten, Verträge prüfen, böswillige Kunden erkennen und gleichzeitig die Gewinnspanne gegen steigende Lohnkosten halten.
Qwen3.7-Max erzielte einen Gesamtumsatz von 2,08 Millionen US-Dollar und schloss 237 Aufgaben ab. Vorgänger Qwen3.6-Plus kam auf 1,05 Millionen, Qwen3.5-Plus auf 352.000 US-Dollar.
Benchmark-Werte auf Opus-Niveau
In vielen Benchmarks positioniert sich Qwen3.7-Max meist gleichauf oder leicht vor Claude Opus 4.6 Max, Kimi K2.6 Thinking, GLM-5.1 Thinking und DeepSeek V4 Pro Max. Auf SWE-Verified erreicht das Modell 80,4 Punkte und liegt damit nahezu auf Augenhöhe mit Opus 4.6 Max (80,8) und DeepSeek V4 Pro Max (80,6). Bei den Mathe- und Wissenschafts-Benchmarks GPQA Diamond (92,4), HMMT 2026 Februar (97,1) und Apex (44,5) führt Qwen3.7-Max die Vergleichstabelle des Anbieters an.


Ein Teil der zitierten Benchmarks ist allerdings hauseigen, darunter QwenWebDev, QwenClawBench, CoWorkBench und QwenWorldBench. Die Ergebnisse stammen ausschließlich aus der Selbstevaluation des Qwen-Teams. Eine weitere Analyse der Scaling-Dynamik und Methodik soll in einem kommenden technischen Bericht folgen.
Neben den Standard-Anwendungsfällen demonstriert das Team Qwen3.7-Max fast nebenbei ("one more thing") auch als Steuerungsmodell für einen vierbeinigen Roboter. Über ein eigenes Robotik-Framework und ein zugehöriges Navigationsmodell steuert das Sprachmodell den Roboter durch physische Umgebungen.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenDer Rest ist für Abonnenten.
Jetzt Abo abschließen.
- Zugriff auf alle THE DECODER Artikel.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.