Alibaba stellt mit Qwen3 eine neue offene Sprachmodellfamilie vor, die in Benchmarks mit marktführenden Systemen konkurriert.
Alibaba hat die Qwen3-Modellreihe veröffentlicht, die in zahlreichen Benchmarks Ergebnisse auf Augenhöhe mit aktuellen Spitzenmodellen wie DeepSeek-R1, o1, o3-mini, Grok-3 und Gemini-2.5-Pro erzielt.
Die beiden größten Modelle, Qwen3-235B-A22B und Qwen3-30B-A3B (Mixture-of-Experts-Architektur), erreichen in den gängigen Tests für Coding, Mathematik und allgemeine Fähigkeiten Werte, die mit den besten Systemen am Markt vergleichbar sind - und das bei oft geringerer Größe. Die hohen Benchmark-Ergebnisse wurden im Reasoning-Modus (vermutlich mit dem höchsten Token-Budget) erzielt.
Introducing Qwen3!
We release and open-weight Qwen3, our latest large language models, including 2 MoE models and 6 dense models, ranging from 0.6B to 235B. Our flagship model, Qwen3-235B-A22B, achieves competitive results in benchmark evaluations of coding, math, general… pic.twitter.com/JWZkJeHWhC
— Qwen (@Alibaba_Qwen) April 28, 2025
Das Pretraining der Modelle erfolgte mit 36 Billionen Token – mehr als bei Llama 4 Maverick (22T), aber weniger als bei Llama 4 Scout (40T). Die Daten umfassen Webinhalte, Dokumente sowie eigens generierte Mathematik- und Programmierdaten. Die Modelle sind unter der Apache 2.0-Lizenz veröffentlicht und damit frei verfügbar.
Qwen 3 ist ein hybrides Open-Source-Modell
Ein zentrales Merkmal von Qwen3 ist die Umschaltbarkeit zwischen zwei Denkmodi: Im „Thinking Mode“ löst das Modell Aufgaben mit ausführlichen Zwischenschritten, während im „Non-Thinking Mode“ schnelle, unmittelbare Antworten geliefert werden. Das ist von anderen Modellen wie Claude 3.7 oder Grok bekannt. Vor allem komplexe Aufgaben profitieren von der Reasoning-Funktion, während für Routineabfragen der schnelle Modus geeignet ist.
Qwen3 is a win for open weights & efficiency - hybrid reasoning models that approach DeepSeek R1’s GPQA score with 1/3 the total parameters and a range of smaller models suited for compute limited environments
Today, Alibaba announced eight hybrid reasoning models of varying… pic.twitter.com/NMdA64mZjE
— Artificial Analysis (@ArtificialAnlys) April 29, 2025
Laut Alibaba unterstützen die Modelle 119 Sprachen und Dialekte. Die Sprachabdeckung reicht von weit verbreiteten Sprachen wie Englisch, Chinesisch und Arabisch bis hin zu vielen Minderheitensprachen und regionalen Dialekten. Wie gut die Modelle tatsächlich sind, muss sich natürlich im jeweiligen Anwendungsfall zeigen.
Die veröffentlichten Benchmarkwerte versprechen jedoch ein sehr leistungsfähiges Modell, das in seiner Größe Konkurrenten wie die Llama-Serie von Meta oder Deepseek vorerst hinter sich lässt. Doch das kann in wenigen Stunden schon wieder anders aussehen: Meta veranstaltet heute seine erste Llamacon und wird wahrscheinlich ein erstes Reasoning-Modell auf Llama-4-Basis vorstellen. Und Deepseek wird wahrscheinlich in wenigen Wochen den Nachfolger von R1 veröffentlichen.