Inhalt
summary Zusammenfassung

Alibabas Forschungseinheit Qwen setzt mit der neuen Qwen-2.5-Coder-Serie voll auf Skalierung, um die Leistungsfähigkeit ihrer Code-KI-Modelle zu steigern. 

Anzeige

Die von dem chinesischen Unternehmen Alibaba betriebene Forschungsgruppe Qwen hat unter dem Namen Qwen-2.5-Coder eine neue Serie von KI-Modellen speziell für die Softwareentwicklung vorgestellt. Die Modelle sollen Programmierer:innen helfen, Code zu schreiben, analysieren und zu verstehen.

Die Qwen-2.5-Coder-Serie umfasst sechs Modellgrößen mit 0,5 bis 32 Milliarden Parametern. Damit soll sie unterschiedlichen Anwendungsszenarien gerecht werden.

Mit Cursor und Artefakten getestet

Um im Arbeitsalltag von Programmierer:innen bestmöglich zu unterstützen, haben die Forschenden die Modelle zwei praxisnahe Einsatzmöglichkeiten getestet.

Anzeige
Anzeige

Die Modelle zeigten sowohl im beliebten KI-Editor Cursor als auch als Web-Chatbot mit Artefakt-Unterstützung überzeugende Leistungen, vergleichbar mit ChatGPT oder Claude. Eine Implementierung der Chatbot-Funktionalität soll bald in Alibabas Cloud-Plattform Tongyi integriert werden.

Video: Qwen

Video: Qwen

Neues Open-Source-Spitzenmodell

In Benchmarks zur Codegenerierung erreichte das größte Modell Qwen-2.5-Coder-32B-Instruct laut Qwen Bestwerte unter den verfügbaren Open-Source-Systemen wie DeepSeek-Coder oder Codestral.

Zugleich schnitten sie Qwen zufolge auch bei allgemeineren Aufgaben wie logischem Schlussfolgern und Sprachverständnis gut ab. Das viel größere Foundation-Modell GPT-4o zeigte in manchen Benchmarks jedoch noch mehr Leistung.

Empfehlung
Vergleichstabelle: Performance-Metriken verschiedener Code-Modelle wie Qwen2.5, DeepSeek, GPT-4o und Claude 3.5 in zwölf Benchmark-Kategorien.
Das neue Open-Source-Modell Qwen2.5-Coder-32B-Instruct erreicht Spitzenwerte bei Code-Generation, -Reparatur und -Reasoning. In Benchmarks wie EvalPlus und LiveCodeBench übertrifft es andere Open-Source-Modelle und zeigt vergleichbare Leistung zu GPT-4o. | Bild: Qwen

Mehr als 20 Billionen Tokens Trainingsdaten

Die Trainingsdaten setzten sich aus zwei Quellen zusammen: zum einen der generelle Datenmix der im September eingeführten Qwen-2.5-Basismodelle mit 18,5 Billionen Tokens, zum anderen 5,5 Billionen Tokens aus öffentlich verfügbarem Quellcode und programmierrelevanten Web-Texten.

Damit ist es das erste quelloffene Modell, dass die Grenze von 20 Trillionen Tokens Trainingsmaterial übersteigt. Die Forscher:innen haben die Daten mithilfe spezieller Filtermechanismen bereinigt, um eine hohe Qualität zu gewährleisten.

Dem technischen Bericht zufolge verfügen die Qwen-2.5-Coder-Modelle über Kontextfenster von bis zu 128.000 Token. Das Spitzenmodell Qwen-2.5-Coder-32B-Instruct beherrscht über 40 Programmiersprachen – von verbreiteten Sprachen wie Python, Java und JavaScript bis hin zu selteneren wie Haskell oder Racket.

Mehrteiliges Balkendiagramm: Vergleich der McEval-Performance von fünf KI-Modellen über 28 Programmiersprachen, mit Qwen2.5 als Spitzenreiter.
Qwen2.5-Coder-32B-Instruct demonstriert überragende Vielseitigkeit mit Spitzenleistungen in über 40 Programmiersprachen. Besonders bei funktionalen Sprachen wie Haskell und Racket zeigt das Modell dank optimierter Trainingsdaten seine Stärken. | Bild: Qwen

"Scaling is all you need"

Qwen setzt bei der Leistungssteigerung seiner Code-KI-Modelle konsequent auf Skalierung. Der technische Bericht zu den Qwen2.5-Coder-Modellen belegt eine klare Korrelation: Größere Modelle und umfangreichere Datenmengen führen zu besseren Ergebnissen bei Programmieraufgaben. Für die Zukunft plant Qwen sowohl eine weitere Skalierung auf größere Modelle als auch Verbesserungen beim logischen Schlussfolgern.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Alibaba hat alle Modelle außer das mit drei Milliarden Parametern unter einer Apache-2.0-Lizenz auf GitHub veröffentlicht, um die Weiterentwicklung KI-gestützter Programmierwerkzeuge zu fördern. Eine kostenlose Demo findet sich auf Hugging Face.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Alibabas Forschungseinheit Qwen hat mit Qwen-2.5-Coder eine neue Serie von KI-Modellen für die Softwareentwicklung vorgestellt. Die sechs Modelle mit 0,5 bis 32 Milliarden Parametern sollen Programmierer:innen beim Schreiben, Analysieren und Verstehen von Code unterstützen.
  • In Praxistests, integriert in den KI-Editor Cursor und als Web-Chatbot mit Artefaktunterstützung, zeigten die Modelle gute Ergebnisse. Das größte Modell Qwen-2.5-Coder-32B-Instruct erreichte in Benchmarks zur Codegenerierung die besten Werte unter den verfügbaren Open-Source-Systemen.
  • Qwen setzt auf Skalierung, um die Leistung seiner Code-KI-Modelle zu steigern. Die Modelle wurden mit mehr als 5,5 Billionen Token aus öffentlichem Quellcode und programmierrelevanten Webtexten trainiert. Mit Ausnahme des 3-Milliarden-Parameter-Modells sind alle Modelle unter der Apache 2.0-Lizenz auf GitHub verfügbar.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!