Inhalt
summary Zusammenfassung
Update
  • FP8-Modelle ergänzt

Update vom 23.09.2025:

Anzeige

Alibaba veröffentlicht zwei neue Varianten seiner Qwen3-Next-Serie mit FP8-Präzision. Die Modelle Qwen3-Next-80B-A3B-Instruct-FP8 und Qwen3-Next-80B-A3B-Thinking-FP8 nutzen das FP8-Format (8-Bit Floating Point), das eine deutlich höhere Verarbeitungsgeschwindigkeit ermöglichen soll. Sie sind vollständig kompatibel mit Frameworks wie Transformers, vLLM und SGLang.

Die FP8-Variante zielt auf Anwendungen mit hohen Geschwindigkeitsanforderungen ab, etwa bei der Bereitstellung von KI-Diensten im Echtzeitbetrieb. Im Vergleich zu herkömmlichen Formaten wie FP16 oder INT8 bietet FP8 ein besseres Verhältnis zwischen Rechenleistung und Energieverbrauch bei geringem Qualitätsverlust in der Antwortgenauigkeit.

Beide Modelle sind ab sofort auf Hugging Face und ModelScope verfügbar. Das Instruct-Modell richtet sich an allgemeine Aufgaben im Chatbot- oder Assistenzbereich. Das Thinking-Modell ist auf Aufgaben mit hohem logischen Anspruch optimiert.

Anzeige
Anzeige

Ursprünglicher Artikel vom 14.09.2025:

Alibaba hat mit Qwen3-Next ein neues Sprachmodell veröffentlicht, das auf eine angepasste Architektur setzt. Das Modell soll damit deutlich schneller rechnen als frühere Varianten – bei vergleichbarer Leistung.

Alibaba hat mit Qwen3-Next ein neues Sprachmodell vorgestellt, das auf eine besonders sparsame MoE-Architektur setzt. Während das Vorgängermodell Qwen3 etwa 128 Experten definierte und bei jedem Inferenzschritt acht davon aktivierte, nutzt Qwen3-Next eine deutlich vergrößerte Expertenschicht mit 512 Experten, aktiviert jedoch nur zehn davon plus einen zusätzlichen gemeinsamen Experten. Die Entwickler versprechen eine mehr als zehnfach höhere Geschwindigkeit im Vergleich zum bisherigen Modell Qwen3-32B, insbesondere bei langen Texteingaben mit mehr als 32.000 Tokens.

Die neue MoE-Variante setzt außerdem auf stabilitätsfördernde Maßnahmen, um typische Probleme wie ungleiche Nutzung der Experten, numerische Instabilitäten oder zufällige Initialisierungsfehler zu vermeiden. Dazu gehören unter anderem eine normalisierte Initialisierung der Router-Parameter oder ein Output-Gating in den Attention-Layern.

Neben dem Basismodell wurden zwei spezialisierte Varianten veröffentlicht: Qwen3-Next-80B-A3B-Instruct für allgemeine Anwendungen und Qwen3-Next-80B-A3B-Thinking für komplexe Denkaufgaben. Das kleinere Instruct-Modell erreicht laut dem Unternehmen nahezu die Leistung von Alibabas Flaggschiffmodell Qwen3-235B-A22B-Instruct, insbesondere bei sehr langen Kontexten bis 256.000 Tokens. Das Thinking-Modell schlägt laut Alibaba das geschlossene Gemini-2.5-Flash-Thinking von Google in mehreren Benchmarks und nähert sich in zentralen Metriken dem eigenen Topmodell Qwen3-235B-A22B-Thinking an.

Empfehlung
Bild: Qwen.ai

Die Modelle können über Hugging Face, ModelScope oder den Nvidia API Catalog genutzt werden. Für eigene Server empfehlen die Entwickler spezialisierte Frameworks wie sglang oder vllm. Derzeit sind Kontextlängen bis 256.000 Tokens möglich, in Kombination mit speziellen Verfahren auch bis zu einer Million Tokens.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Alibaba stellt mit Qwen3-Next ein neues Sprachmodell vor, das mit einer effizienteren MoE-Architektur über zehnmal schneller arbeitet als das Vorgängermodell, besonders bei sehr langen Texteingaben.
  • Maßnahmen wie normalisierte Router-Initialisierung und Output-Gating sorgen für mehr Stabilität und gleichmäßigere Expertennutzung.
  • Zwei spezialisierte Varianten sind verfügbar: Instruct für allgemeine Aufgaben und Thinking für komplexe Denkaufgaben, beide mit sehr langen Kontexten und über Plattformen wie Hugging Face nutzbar.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!