Inhalt
summary Zusammenfassung

Alibaba veröffentlicht mit Qwen 2.5 eine umfangreiche Reihe neuer KI-Modelle, die in Benchmarks mit führenden Open-Source-Modellen wie Llama 3.1 konkurrieren können. Die Modelle umfassen Varianten für allgemeine Sprache, Programmierung und Mathematik.

Anzeige

Alibabas Cloud-Computing-Abteilung hat mit Qwen 2.5 eine neue Generation von KI-Modellen vorgestellt. Die Modellreihe umfasst Varianten für allgemeine Sprache (Qwen2.5), Programmierung (Qwen2.5-Coder) und Mathematik (Qwen2.5-Math) in verschiedenen Größen von 0,5 bis 72 Milliarden Parametern.

Laut Alibaba übertrifft das größte Modell Qwen2.5-72B in Benchmarks wie MMLU führende Open-Source-Modelle wie Llama-3.1-70B und Mistral-Large-V2. Auch die kleineren Varianten wie Qwen2.5-14B und Qwen2.5-32B sollen mit größeren Modellen wie Phi-3.5-MoE-Instruct und Gemma2-27B-IT konkurrieren können.

Die Qwen2.5-Modelle wurden auf einem Datensatz von bis zu 18 Billionen Tokens trainiert und unterstützen laut Alibaba über 29 Sprachen. Sie können bis zu 128.000 Tokens verarbeiten und bis zu 8.000 Tokens generieren.

Anzeige
Anzeige

Qwen2.5-Coder wurde speziell für Programmieraufgaben optimiert. Das 7B-Modell soll trotz seiner geringen Größe viele größere Sprachmodelle in verschiedenen Programmiersprachen und -aufgaben übertreffen.

Qwen2.5-Math baut auf dem kürzlich veröffentlichten Qwen2-Math auf. Es wurde mit zusätzlichen mathematischen Daten trainiert, darunter auch von Qwen2-Math generierte synthetische Daten. Laut Alibaba übertrifft Qwen2.5-Math-72B-Instruct in mathematischen Benchmarks wie GSM8K, Math und MMLU-STEM Modelle wie GPT-4o, Claude 3.5 Sonnet und Llama 3.1 405B.

Einige Modelle Open-Source

Die meisten Qwen2.5-Modelle sind unter der Apache-2.0-Lizenz als Open Source verfügbar. Ausnahmen bilden die 3B- und 72B-Varianten. Zusätzlich bietet Alibaba mit Qwen-Plus und Qwen-Turbo API-Zugang zu seinen leistungsfähigsten Modellen.

Alibaba betont, dass die neuen Modelle verbesserte Fähigkeiten in der Verarbeitung strukturierter Daten, der Generierung strukturierter Ausgaben und der Anpassung an verschiedene System-Prompts aufweisen. Dies soll die Implementierung von Rollenspielen und die Konfiguration von Chatbots erleichtern.

Die Veröffentlichung von Qwen 2.5 folgt auf frühere Versionen wie Qwen2 und Qwen2-VL. Letzteres ist ein multimodales Modell, das Bilder und Videos mit einer Länge von über 20 Minuten analysieren kann.

Empfehlung

Alibaba plant, in Zukunft noch größere Qwen-Modelle zu trainieren, einschließlich weiterer multimodaler Varianten mit Bild- und Audiodaten. Alle Modelle sind auf GitHub verfügbar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Alibaba hat mit Qwen 2.5 eine neue Reihe von KI-Modellen vorgestellt, die für allgemeine Sprache, Programmierung und Mathematik optimiert sind. Die Modelle gibt es in Größen von 0,5 bis 72 Milliarden Parametern.
  • Laut Alibaba übertreffen die Qwen2.5-Modelle in Benchmarks führende Open-Source-Modelle wie Llama 3.1. Sie wurden auf bis zu 18 Billionen Tokens trainiert, unterstützen über 29 Sprachen und können bis zu 128.000 Tokens verarbeiten.
  • Die meisten Qwen2.5-Modelle sind als Open Source unter der Apache-2.0-Lizenz verfügbar. Alibaba plant zukünftig noch größere Modelle zu trainieren, auch mit multimodalen Fähigkeiten für Bild- und Audiodaten.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!