Inhalt
summary Zusammenfassung

Alibaba hat mit Qwen3-Next ein neues Sprachmodell veröffentlicht, das auf eine angepasste Architektur setzt. Das Modell soll damit deutlich schneller rechnen als frühere Varianten – bei vergleichbarer Leistung.

Anzeige

Alibaba hat mit Qwen3-Next ein neues Sprachmodell vorgestellt, das auf eine besonders sparsame MoE-Architektur setzt. Während das Vorgängermodell Qwen3 etwa 128 Experten definierte und bei jedem Inferenzschritt acht davon aktivierte, nutzt Qwen3-Next eine deutlich vergrößerte Expertenschicht mit 512 Experten, aktiviert jedoch nur zehn davon plus einen zusätzlichen gemeinsamen Experten. Die Entwickler versprechen eine mehr als zehnfach höhere Geschwindigkeit im Vergleich zum bisherigen Modell Qwen3-32B, insbesondere bei langen Texteingaben mit mehr als 32.000 Tokens.

Die neue MoE-Variante setzt außerdem auf stabilitätsfördernde Maßnahmen, um typische Probleme wie ungleiche Nutzung der Experten, numerische Instabilitäten oder zufällige Initialisierungsfehler zu vermeiden. Dazu gehören unter anderem eine normalisierte Initialisierung der Router-Parameter oder ein Output-Gating in den Attention-Layern.

Neben dem Basismodell wurden zwei spezialisierte Varianten veröffentlicht: Qwen3-Next-80B-A3B-Instruct für allgemeine Anwendungen und Qwen3-Next-80B-A3B-Thinking für komplexe Denkaufgaben. Das kleinere Instruct-Modell erreicht laut dem Unternehmen nahezu die Leistung von Alibabas Flaggschiffmodell Qwen3-235B-A22B-Instruct, insbesondere bei sehr langen Kontexten bis 256.000 Tokens. Das Thinking-Modell schlägt laut Alibaba das geschlossene Gemini-2.5-Flash-Thinking von Google in mehreren Benchmarks und nähert sich in zentralen Metriken dem eigenen Topmodell Qwen3-235B-A22B-Thinking an.

Anzeige
Anzeige
Bild: Qwen.ai

Die Modelle können über Hugging Face, ModelScope oder den Nvidia API Catalog genutzt werden. Für eigene Server empfehlen die Entwickler spezialisierte Frameworks wie sglang oder vllm. Derzeit sind Kontextlängen bis 256.000 Tokens möglich, in Kombination mit speziellen Verfahren auch bis zu einer Million Tokens.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Alibaba stellt mit Qwen3-Next ein neues Sprachmodell vor, das mit einer effizienteren MoE-Architektur über zehnmal schneller arbeitet als das Vorgängermodell, besonders bei sehr langen Texteingaben.
  • Maßnahmen wie normalisierte Router-Initialisierung und Output-Gating sorgen für mehr Stabilität und gleichmäßigere Expertennutzung.
  • Zwei spezialisierte Varianten sind verfügbar: Instruct für allgemeine Aufgaben und Thinking für komplexe Denkaufgaben, beide mit sehr langen Kontexten und über Plattformen wie Hugging Face nutzbar.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!