Alibabas KI-Forschungsabteilung Qwen stellt neue Coding-KI-Modelle vor

Alibabas Forschungseinheit Qwen setzt mit der neuen Qwen-2.5-Coder-Serie voll auf Skalierung, um die Leistungsfähigkeit ihrer Code-KI-Modelle zu steigern.

Die von dem chinesischen Unternehmen Alibaba betriebene Forschungsgruppe Qwen hat unter dem Namen Qwen-2.5-Coder eine neue Serie von KI-Modellen speziell für die Softwareentwicklung vorgestellt. Die Modelle sollen Programmierer:innen helfen, Code zu schreiben, analysieren und zu verstehen.

Die Qwen-2.5-Coder-Serie umfasst sechs Modellgrößen mit 0,5 bis 32 Milliarden Parametern. Damit soll sie unterschiedlichen Anwendungsszenarien gerecht werden.

Mit Cursor und Artefakten getestet

Um im Arbeitsalltag von Programmierer:innen bestmöglich zu unterstützen, haben die Forschenden die Modelle zwei praxisnahe Einsatzmöglichkeiten getestet.

Die Modelle zeigten sowohl im beliebten KI-Editor Cursor als auch als Web-Chatbot mit Artefakt-Unterstützung überzeugende Leistungen, vergleichbar mit ChatGPT oder Claude. Eine Implementierung der Chatbot-Funktionalität soll bald in Alibabas Cloud-Plattform Tongyi integriert werden.

Video: Qwen

Neues Open-Source-Spitzenmodell

In Benchmarks zur Codegenerierung erreichte das größte Modell Qwen-2.5-Coder-32B-Instruct laut Qwen Bestwerte unter den verfügbaren Open-Source-Systemen wie DeepSeek-Coder oder Codestral.

Zugleich schnitten sie Qwen zufolge auch bei allgemeineren Aufgaben wie logischem Schlussfolgern und Sprachverständnis gut ab. Das viel größere Foundation-Modell GPT-4o zeigte in manchen Benchmarks jedoch noch mehr Leistung.

Empfehlung

KI in der Praxis

Update

OpenAI testet KI-Modelle erstmals systematisch an realer Wissensarbeit

Vergleichstabelle: Performance-Metriken verschiedener Code-Modelle wie Qwen2.5, DeepSeek, GPT-4o und Claude 3.5 in zwölf Benchmark-Kategorien. — Das neue Open-Source-Modell Qwen2.5-Coder-32B-Instruct erreicht Spitzenwerte bei Code-Generation, -Reparatur und -Reasoning. In Benchmarks wie EvalPlus und LiveCodeBench übertrifft es andere Open-Source-Modelle und zeigt vergleichbare Leistung zu GPT-4o. | Bild: Qwen

Mehr als 20 Billionen Tokens Trainingsdaten

Die Trainingsdaten setzten sich aus zwei Quellen zusammen: zum einen der generelle Datenmix der im September eingeführten Qwen-2.5-Basismodelle mit 18,5 Billionen Tokens, zum anderen 5,5 Billionen Tokens aus öffentlich verfügbarem Quellcode und programmierrelevanten Web-Texten.

Damit ist es das erste quelloffene Modell, dass die Grenze von 20 Trillionen Tokens Trainingsmaterial übersteigt. Die Forscher:innen haben die Daten mithilfe spezieller Filtermechanismen bereinigt, um eine hohe Qualität zu gewährleisten.

Dem technischen Bericht zufolge verfügen die Qwen-2.5-Coder-Modelle über Kontextfenster von bis zu 128.000 Token. Das Spitzenmodell Qwen-2.5-Coder-32B-Instruct beherrscht über 40 Programmiersprachen – von verbreiteten Sprachen wie Python, Java und JavaScript bis hin zu selteneren wie Haskell oder Racket.

Mehrteiliges Balkendiagramm: Vergleich der McEval-Performance von fünf KI-Modellen über 28 Programmiersprachen, mit Qwen2.5 als Spitzenreiter. — Qwen2.5-Coder-32B-Instruct demonstriert überragende Vielseitigkeit mit Spitzenleistungen in über 40 Programmiersprachen. Besonders bei funktionalen Sprachen wie Haskell und Racket zeigt das Modell dank optimierter Trainingsdaten seine Stärken. | Bild: Qwen

"Scaling is all you need"

Qwen setzt bei der Leistungssteigerung seiner Code-KI-Modelle konsequent auf Skalierung. Der technische Bericht zu den Qwen2.5-Coder-Modellen belegt eine klare Korrelation: Größere Modelle und umfangreichere Datenmengen führen zu besseren Ergebnissen bei Programmieraufgaben. Für die Zukunft plant Qwen sowohl eine weitere Skalierung auf größere Modelle als auch Verbesserungen beim logischen Schlussfolgern.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Alibaba hat alle Modelle außer das mit drei Milliarden Parametern unter einer Apache-2.0-Lizenz auf GitHub veröffentlicht, um die Weiterentwicklung KI-gestützter Programmierwerkzeuge zu fördern. Eine kostenlose Demo findet sich auf Hugging Face.

Alibabas KI-Forschungsabteilung Qwen stellt neue Coding-KI-Modelle vor

Mit Cursor und Artefakten getestet

Neues Open-Source-Spitzenmodell

OpenAI testet KI-Modelle erstmals systematisch an realer Wissensarbeit

Mehr als 20 Billionen Tokens Trainingsdaten

"Scaling is all you need"

Microsoft Copilot bekommt KI-Gruppenchat für bis zu 32 Teilnehmer

Anthropic rollt Erinnerungsfunktion für Claude weiter aus

OpenAI kauft Start-up für Mac-Sprachsteuerung

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

OpenAI: GPT-5 soll deutlich weniger politisch voreingenommen sein

Alibabas KI-Forschungsabteilung Qwen stellt neue Coding-KI-Modelle vor

Mit Cursor und Artefakten getestet

Neues Open-Source-Spitzenmodell

Mehr als 20 Billionen Tokens Trainingsdaten

"Scaling is all you need"

Artikel teilen

Bankverbindung