Qwen2.5-Max: Neues Alibaba-Modell schlägt DeepSeek-V3

Das chinesische Technologieunternehmen Alibaba hat mit Qwen2.5-Max ein neues Sprachmodell entwickelt, das mit einer enormen Menge an Trainingsdaten und starken Ergebnissen in Benchmark-Tests aufwartet.

Alibaba hat neben Qwen2.5-VL und Qwen2.5-1M auch das KI-Sprachmodell Qwen2.5-Max vorgestellt, das als Mixture-of-Expert-Modell (MoE) konzipiert ist und auf über 20 Billionen Trainingstoken basiert. Diese enorme Datenmenge stellt laut dem Team einen neuen Rekord für ein Foundation-Modell dar und soll maßgeblich zur Leistungsfähigkeit des Modells beitragen.

In verschiedenen Benchmark-Vergleichen mit anderen führenden offenen und geschlossenen KI-Modellen wie Deepseek-V3, GPT-4o, Claude 3.5 Sonnet und Llama-3.1-405B schneidet es in einigen Benchmarks besser ab und zeigt in anderen eine starke Performance.

Zu den beiden kommerziellen Modellen sind die genauen Mengen an Trainingsdaten unbekannt, Deepseek-V3 hatte 14,8 Billionen, Llama-3.1-405B rund 15 Billionen.

Säulendiagramm: Leistungsvergleich von 5 KI-Modellen (Qwen, DeepSeek, Llama, GPT4, Claude) anhand von 5 Benchmark-Tests mit Prozentangaben. — Im Vergleich verschiedener Large Language Models zeigt Qwen2.5-Max Spitzenleistungen bei den wichtigen Benchmarks Arena-Hard und LiveBench, ist in anderen aber zumindest gleichauf. | Bild: Qwen

Alibaba hat bei der Entwicklung von Qwen2.5-Max neben dem Pretraining auf der gewaltigen Datenmenge auch bewährte Techniken wie Supervised Fine-Tuning (SFT) und Reinforcement Learning from Human Feedback (RLHF) eingesetzt.

Qwen2.5-Max über API und in Qwen Chat verfügbar

Interessierte Nutzer können ab sofort über die Alibaba Cloud per API auf Qwen2.5-Max zugreifen. Darüber hinaus steht Qwen2.5-Max auch in Alibabas Chatbot Qwen Chat zum Testen bereit, der ChatGPT-ähnliche Funktionen wie Websuche und Artefakte bietet.

Woher die große Datenmenge stammt, verraten die Forschenden in dem zugehörigen Blogbeitrag nicht. Es ist davon auszugehen, dass synthetische Daten, also von anderen Sprachmodellen produzierte Texte, eine wesentliche Rolle spielen.

Mit dem enormen Investment in Trainingsressourcen hat Qwen jedoch nur mäßigen Vorsprung im Benchmarkvergleich zur Konkurrenz erzielen können. Zuletzt hat sich in der KI-Szene angekündigt, dass der Weg zu besseren Sprachmodellen eher in der Vergrößerung der sogenannten Test-Time Compute liegt.

Die Max-Reihe wird voraussichtlich nur per API verfügbar bleiben und nicht wie andere Qwen2.5-Modelle als Open-Source freigegeben.

Empfehlung

KI-Forschung

KI-Agenten übertreffen menschliche Hackerteams in Cybersecurity-Wettbewerben

Mit der "OpenAI-kompatiblen Schnittstelle" und niedrigen Preisen will Alibaba es Entwickler:innen besonders leicht machen, ihre bestehenden Anwendungen auf die eigene Cloud umzuziehen. Wie andere chinesische Sprachmodelle auch unterliegt Qwen2.5-Max allerdings der Zensur der dortigen Regierung.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Qwen2.5-Max: Neues Alibaba-Modell schlägt DeepSeek-V3

Qwen2.5-Max über API und in Qwen Chat verfügbar

KI-Agenten übertreffen menschliche Hackerteams in Cybersecurity-Wettbewerben

Alibabas Qwen2.5-Turbo liest zehn Romane in knapp einer Minute

Qwen 2.5: Alibabas neue KI-Modelle fordern die Konkurrenz heraus

OpenAI und Anthropic liefern erstmals detaillierte Einblicke in KI-Nutzungsmuster

KI-Tools antworten immer – und immer häufiger mit Fake News

Nutzer hatten Recht: Anthropic bestätigt Qualitätsprobleme bei Claude

Qwen2.5-Max: Neues Alibaba-Modell schlägt DeepSeek-V3

Qwen2.5-Max über API und in Qwen Chat verfügbar

KI-Agenten übertreffen menschliche Hackerteams in Cybersecurity-Wettbewerben

Alibabas Qwen2.5-Turbo liest zehn Romane in knapp einer Minute

Qwen 2.5: Alibabas neue KI-Modelle fordern die Konkurrenz heraus