Inhalt
summary Zusammenfassung

Alibaba hat ein KI-Modell entwickelt, das die Effizienz von Reinforcement Learning demonstriert. Das Modell könnte den Wettbewerb im Bereich Reasoning-Modelle beeinflussen und die Entwicklung ressourcenschonender KI-Systeme vorantreiben.

Anzeige

Alibabas neues QwQ-32B erreichte trotz seiner vergleichsweise geringen Anzahl von 32 Milliarden Parametern eine bemerkenswerte Leistung. Bereits im November 2024 hatte das Unternehmen mit QwQ-32B-Preview eine Vorabversion präsentiert.

In verschiedenen Benchmarks, die mathematische Fähigkeiten, Programmierkompetenz und allgemeine Problemlösungsfähigkeiten testen, erzielte QwQ-32B ähnliche Ergebnisse wie das viel größere DeepSeek-R1 von DeepSeek mit 671 Milliarden Parametern.

Die größte Version von DeepSeek-R1 verwendet eine sogenannte Mixture-of-Experts-Architektur, das heißt, von den 671 Milliarden Parametern sind bei jedem Durchlauf nur 37 Milliarden Parameter aktiv. Dennoch benötigt es große Mengen an Grafikspeicher, um das Modell auszuführen. QwQ-32B könnte für schwächere Hardware interessant sein, ohne dass große Leistungseinbußen zu befürchten sind.

Anzeige
Anzeige

Zweistufiges Training mit Reinforcement Learning

Die Forscher von Alibaba erklären die Leistungsfähigkeit von QwQ-32B mit der effektiven Anwendung von Reinforcement Learning auf ein Foundation-Model, das auf umfangreichem Weltwissen vortrainiert wurde. Beim Reinforcement Learning lernt das Modell durch die Interaktion mit menschlichen oder maschinellen Beurteilern und verbessert seine Leistung kontinuierlich auf der Grundlage von Belohnungen.

Das Training erfolgte in zwei Stufen: Zunächst wurde RL für Mathematik- und Programmieraufgaben skaliert, wobei ein Genauigkeitsprüfer für mathematische Probleme und ein Code-Ausführungsserver verwendet wurden. In der zweiten Stufe folgte eine zusätzliche RL-Phase für allgemeinere Fähigkeiten wie Instruktionsbefolgung, Ausrichtung an menschliche Präferenzen und Agentenleistung.

Balkendiagramm: Leistungsvergleich von 5 KI-Modellen in 5 Benchmarks, QwQ-32B und DeepSeek-R1 führend mit Werten zwischen 49-84%.
AIME24 testet das mathematische Denken, LiveCodeBench und LiveBench die Programmierfähigkeiten, IFEval das Befolgen von Anweisungen und BFCL die grundlegende Sprachverarbeitung. QwQ-32B erzielt durchweg konkurrenzfähige Ergebnisse. | Bild: Alibaba

Durch die Integration von agentenbezogenen Fähigkeiten kann QwQ-32B kritisch denken, Werkzeuge nutzen und seine Schlussfolgerungen basierend auf Umgebungsfeedback anpassen.

QwQ-32B wurde von Alibaba unter der Apache-2.0-Lizenz als Open-Weight-Modell auf Plattformen wie Hugging Face und ModelScope veröffentlicht. Dadurch können Forscher:innen und Entwickler:innen das Modell untersuchen, weiterentwickeln und neue Anwendungsmöglichkeiten erschließen.

Die Nutzung von QwQ-32B ist zudem über die Hugging Face Transformers und die Alibaba Cloud DashScope API möglich. Interessierte können das Modell auch über die hauseigene ChatGPT-Alternative Qwen Chat testen.

Empfehlung

Alibabas Weg zur AGI

Das Reasoningmodell ist Teil von Alibabas großangelegter KI-Strategie, die auch die teilweise multimodale Qwen2.5-Serie mit spezialisierten Modellen für Sprache, Programmierung und Mathematik sowie das auf große Kontextfenster ausgelegte Qwen2.5-Turbo umfasst.

Um diese Ziele zu erreichen, hat Alibaba erst im Februar eine Investition von umgerechnet 50 Milliarden Euro angekündigt, die in KI-Entwicklung und Cloudinfrastruktur fließen sollen. Zuvor wurde bekannt, dass sich chinesische Unternehmen mit der Entwicklung von Prozessoren für das Training von Large Language Models unabhängiger von US-Unternehmen wie Nvidia machen wollen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Alibaba hat mit QwQ-32B ein leistungsfähiges KI-Modell mit nur 32 Milliarden Parametern entwickelt, das in Benchmarks für mathematisches Schließen, Programmierung und allgemeine Problemlösung ähnlich gute Ergebnisse erzielt wie deutlich größere Modelle.
  • Wie andere Reasoning-Modelle von Deepseek oder OpenAI wurde auch QwQ durch Reinforcement Learning optimiert. Das Modell lernt aus generierten Gedankenketten, die zu einem richtigen Ergebnis geführt haben.
  • QwQ-32B steht unter der Apache-2.0-Lizenz und ist Teil der umfassenden KI-Strategie von Alibaba. Das Unternehmen investiert massiv in die Entwicklung von KI und Cloud-Infrastrukturen, um unabhängiger von US-Anbietern zu werden.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!