Alibaba packt leistungsstarkes Reasoning in kompaktes KI-Modell QwQ-32B

Alibaba hat ein KI-Modell entwickelt, das die Effizienz von Reinforcement Learning demonstriert. Das Modell könnte den Wettbewerb im Bereich Reasoning-Modelle beeinflussen und die Entwicklung ressourcenschonender KI-Systeme vorantreiben.

Alibabas neues QwQ-32B erreichte trotz seiner vergleichsweise geringen Anzahl von 32 Milliarden Parametern eine bemerkenswerte Leistung. Bereits im November 2024 hatte das Unternehmen mit QwQ-32B-Preview eine Vorabversion präsentiert.

In verschiedenen Benchmarks, die mathematische Fähigkeiten, Programmierkompetenz und allgemeine Problemlösungsfähigkeiten testen, erzielte QwQ-32B ähnliche Ergebnisse wie das viel größere DeepSeek-R1 von DeepSeek mit 671 Milliarden Parametern.

Die größte Version von DeepSeek-R1 verwendet eine sogenannte Mixture-of-Experts-Architektur, das heißt, von den 671 Milliarden Parametern sind bei jedem Durchlauf nur 37 Milliarden Parameter aktiv. Dennoch benötigt es große Mengen an Grafikspeicher, um das Modell auszuführen. QwQ-32B könnte für schwächere Hardware interessant sein, ohne dass große Leistungseinbußen zu befürchten sind.

Zweistufiges Training mit Reinforcement Learning

Die Forscher von Alibaba erklären die Leistungsfähigkeit von QwQ-32B mit der effektiven Anwendung von Reinforcement Learning auf ein Foundation-Model, das auf umfangreichem Weltwissen vortrainiert wurde. Beim Reinforcement Learning lernt das Modell durch die Interaktion mit menschlichen oder maschinellen Beurteilern und verbessert seine Leistung kontinuierlich auf der Grundlage von Belohnungen.

Das Training erfolgte in zwei Stufen: Zunächst wurde RL für Mathematik- und Programmieraufgaben skaliert, wobei ein Genauigkeitsprüfer für mathematische Probleme und ein Code-Ausführungsserver verwendet wurden. In der zweiten Stufe folgte eine zusätzliche RL-Phase für allgemeinere Fähigkeiten wie Instruktionsbefolgung, Ausrichtung an menschliche Präferenzen und Agentenleistung.

Balkendiagramm: Leistungsvergleich von 5 KI-Modellen in 5 Benchmarks, QwQ-32B und DeepSeek-R1 führend mit Werten zwischen 49-84%. — AIME24 testet das mathematische Denken, LiveCodeBench und LiveBench die Programmierfähigkeiten, IFEval das Befolgen von Anweisungen und BFCL die grundlegende Sprachverarbeitung. QwQ-32B erzielt durchweg konkurrenzfähige Ergebnisse. | Bild: Alibaba

Durch die Integration von agentenbezogenen Fähigkeiten kann QwQ-32B kritisch denken, Werkzeuge nutzen und seine Schlussfolgerungen basierend auf Umgebungsfeedback anpassen.

QwQ-32B wurde von Alibaba unter der Apache-2.0-Lizenz als Open-Weight-Modell auf Plattformen wie Hugging Face und ModelScope veröffentlicht. Dadurch können Forscher:innen und Entwickler:innen das Modell untersuchen, weiterentwickeln und neue Anwendungsmöglichkeiten erschließen.

Die Nutzung von QwQ-32B ist zudem über die Hugging Face Transformers und die Alibaba Cloud DashScope API möglich. Interessierte können das Modell auch über die hauseigene ChatGPT-Alternative Qwen Chat testen.

Empfehlung

KI-Forschung

Präzision und Scaling Laws: KI-Forscher sieht "perfekten Sturm" für das Ende des Skalierens

Alibabas Weg zur AGI

Das Reasoningmodell ist Teil von Alibabas großangelegter KI-Strategie, die auch die teilweise multimodale Qwen2.5-Serie mit spezialisierten Modellen für Sprache, Programmierung und Mathematik sowie das auf große Kontextfenster ausgelegte Qwen2.5-Turbo umfasst.

Um diese Ziele zu erreichen, hat Alibaba erst im Februar eine Investition von umgerechnet 50 Milliarden Euro angekündigt, die in KI-Entwicklung und Cloudinfrastruktur fließen sollen. Zuvor wurde bekannt, dass sich chinesische Unternehmen mit der Entwicklung von Prozessoren für das Training von Large Language Models unabhängiger von US-Unternehmen wie Nvidia machen wollen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Alibaba packt leistungsstarkes Reasoning in kompaktes KI-Modell QwQ-32B

Zweistufiges Training mit Reinforcement Learning

Präzision und Scaling Laws: KI-Forscher sieht "perfekten Sturm" für das Ende des Skalierens

Alibabas Weg zur AGI

Alibaba Qwen VLo: Der nächste GPT-4o-Konkurrent ist nicht mehr Open Source

Qwen startet "Web Dev"-Funktion für Webseiten- und App-Entwicklung

ZeroSearch: Alibaba trainiert KI-Suchassistenten in KI-Simulation

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Alibaba packt leistungsstarkes Reasoning in kompaktes KI-Modell QwQ-32B

Zweistufiges Training mit Reinforcement Learning

Alibabas Weg zur AGI

Artikel teilen

Bankverbindung