Anzeige
Skip to content

Deepseek V4 ist das größte Open-Weights-Modell und unterbietet die Konkurrenz beim Preis deutlich

Image description
Nano Banana Pro prompted by THE DECODER

Kurz & Knapp

  • Das chinesische KI-Labor Deepseek veröffentlicht die Open-Weights-Modelle V4-Pro und V4-Flash, die über bis zu 1,6 Billionen Parameter und ein Kontextfenster von einer Million Token verfügen.
  • Dank einer neuen Architektur sinkt der Rechenaufwand bei langen Texten massiv. Dadurch kann Deepseek die Modelle zu Preisen anbieten, die weit unter den Tarifen von Konkurrenten wie OpenAI, Google und Anthropic liegen.
  • Die Modelle wurden mit bis zu 33 Billionen Token trainiert und durch hauseigene Spezialistenmodelle optimiert. Sie sind gezielt auf Agenten-Aufgaben ausgerichtet und unterstützen Hardware von Nvidia sowie Huaweis Ascend-Chips.

Das chinesische KI-Labor Deepseek veröffentlicht mit V4-Pro und V4-Flash zwei neue Modelle mit bis zu 1,6 Billionen Parametern und einer Million Token Kontextfenster. Die Preise liegen weit unter denen von OpenAI, Google und Anthropic. Das technische Paper verrät zudem Details zu Trainingsdaten, Destillation und Hardware.

Deepseek hat mit V4-Pro und V4-Flash zwei Preview-Versionen seiner neuen Modellfamilie als Open-Weights-Modelle unter MIT-Lizenz veröffentlicht. Die Gewichte beider Modelle stehen auf Hugging Face zum Download bereit. V4-Pro kommt auf 1,6 Billionen Gesamtparameter bei 49 Milliarden aktiven Parametern, V4-Flash auf 284 Milliarden gesamt bei 13 Milliarden aktiven. Beide sind Mixture-of-Experts-Modelle mit einem Kontextfenster von einer Million Token.

V4-Pro damit das bisher größte Open-Weights-Modell und übertrifft Kimi K2.6 (1,1 Billionen) und GLM-5.1 (754 Milliarden) deutlich. Es ist zugleich die erste neue Architektur von Deepseek seit V3. Alle Zwischenmodelle wie V3.1, V3.2, R1 und R1 0528 basierten noch auf dem V3-Design mit 685 Milliarden Parametern.

Drastisch weniger Rechenaufwand bei langen Kontexten

Die zentrale Innovation ist eine neue Hybrid Attention Architecture mit Token-Kompression und Deepseeks Sparse Attention. Laut dem technischen Bericht benötigt V4-Pro bei einem Kontext von einer Million Token nur 27 Prozent der FLOPs und 10 Prozent des KV-Cache (Zwischenspeicher) im Vergleich zu V3.2. V4-Flash drückt diese Werte auf 10 Prozent der FLOPs und 7 Prozent des KV-Cache.

Anzeige
DEC_D_Incontent-1

Auf dem GDPval-AA-Benchmark von Artificial Analysis führt V4-Pro mit 1.554 Elo-Punkten alle Open-Weights-Modelle an, vor GLM-5.1 (1.535) und Kimi K2.6 (1.484). Das ist ein Sprung von rund 355 Elo-Punkten gegenüber V3.2. Deepseek räumt im Paper allerdings ein, dass V4-Pro "knapp hinter GPT-5.4 und Gemini-3.1-Pro" liege und den Frontier-Modellen etwa drei bis sechs Monate hinterherhinke. Die vollständigen Tests von Artifical Analysis laufen aktuell noch, einige Benchmark-Ergebnisse von Deepseek zeigen den Abstand. OpenAI und Anthropic haben mittlerweile mit GPT-5.5 und Opus 4.7 neue Modelle veröffentlicht.

Diese Effizienzgewinne erklären die aggressive Preisgestaltung: V4-Flash kostet laut Deepseeks Preisseite 0,14 Dollar pro Million Input-Token und 0,28 Dollar pro Million Output-Token und ist damit günstiger als OpenAIs GPT-5.4 Nano. V4-Pro liegt bei 1,74 bzw. 3,48 Dollar und unterbietet Gemini 3.1 Pro, GPT-5.5 und Claude Sonnet 4.6 deutlich.

Modell Input ($/M) Output ($/M)
Deepseek V4 Flash 0,14 0,28
Deepseek V4 Pro 1,74 3,48
GPT-5.4 2,50 15
GPT-5.5 5 30
Claude Sonnet 4.6 3 15
Claude Opus 4.6 5 25
Claude Opus 4.7 5 25

Viele Daten, Destillation aus eigenen Experten

Zum Pre-Training-Korpus schreibt das Team vergleichsweise vage: V4-Flash sieht 32 Billionen, V4-Pro 33 Billionen Tokens. Der Fokus liege auf mehr mehrsprachigen Daten, gezielt kuratierten wissenschaftlichen Papern und technischen Berichten sowie agentischen Daten im Mid-Training. Web-Daten würden gegen "batched auto-generated and templated content" gefiltert.

Anzeige
DEC_D_Incontent-2

Konkrete Datensätze oder Lizenzquellen nennt das Paper nicht. Der häufig geäußerte Verdacht, Deepseek destilliere direkt aus GPT oder Claude, findet im Bericht selbstverständlich keine Bestätigung.

Der Begriff taucht dagegen zentral im Post-Training auf. Die bisher übliche gemischte Reinforcement-Learning-Phase ersetzt Deepseek komplett durch On-Policy Distillation.

Laut dem Paper trainiert das Labor zunächst mehr als zehn eigene Spezialistenmodelle für Mathematik, Code, Agenten und Instruction Following per Supervised Fine-Tuning und GRPO. Anschließend lernt ein einziges Schülermodell gegen diese hauseigenen Lehrer.

Agenten-Fähigkeiten und Huawei-Unterstützung

Deepseek hat V4 gezielt für Agenten-Aufgaben optimiert. Die Modelle sind laut Unternehmensangaben mit Tools wie Claude Code, OpenClaw und OpenCode integriert und werden intern bereits für agentisches Coding eingesetzt. Die API unterstützt sowohl OpenAI- als auch Anthropic-kompatible Schnittstellen.

Bei der Hardware ist das Paper deutlicher: Das Expert-Parallelism-Schema sei auf "Nvidia GPUs and Huawei Ascend NPUs" validiert worden, der quelloffene Mega-Kernel MegaMoE ist CUDA-basiert, die cuBLAS-Bibliothek wurde durch die eigene DeepGEMM ersetzt.

Parallel dazu hat Huawei laut Reuters angekündigt, dass sein Ascend-Supernode auf Basis der Ascend-950-KI-Chips die V4-Modelle vollständig unterstützt.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.