Inhalt
summary Zusammenfassung

Deepseek führt mit V3.2-Exp eine effizientere Attention-Architektur für lange Kontexte ein und senkt die API-Preise um mehr als 50 Prozent. Die Leistung soll weitgehend auf dem Niveau des Vorgängers bleiben.

Anzeige

Deepseek hat das experimentelle Sprachmodell Deepseek-V3.2-Exp vorgestellt. Es basiert auf dem kürzlich vorgestellten V3.1-Terminus und führt eine neue Attention-Variante ein, die lange Kontexte effizienter verarbeitet.

Kern der Aktualisierung ist DeepSeek Sparse Attention (DSA). Sie wählt nur die relevanten Teile des Kontexts aus und macht die Inferenz bei sehr langen Eingaben bis 128.000 Tokens deutlich günstiger; laut Diagramm im Tech-Report sind die Kosten bei 128K grob ~3,5× niedriger fürs Prefilling und ~6–7× fürs Decoding.

Besonders bei langen Kontexten konnte Deepseek die Inferenzkosten deutlich reduzieren. | Bild: Deepseek

Ein weiterer Kernaspekt ist der Einsatz von TileLang als High-Level-Programmiermodell, das nicht auf eine einzelne Hardware-Plattform beschränkt ist. Dadurch kann das neue Modell vom Start weg auch auf KI-Chips chinesischer Anbieter wie Huawei Ascend und Cambricon laufen. Deepseek dürfte sich mit dem neuen Modell hier strategisch für die Zukunft ausgerichtet haben; China möchte sich aus der Abhängigkeit von KI-Chips des US-Herstellers Nvidias lösen.

Anzeige
Anzeige

Ähnliche Leistung für weniger als die Hälfte des Preises

In Benchmarks liegt Deepseek-V3.2-Exp laut Deepseek insgesamt auf Augenhöhe mit V3.1-Terminus. In einzelnen Tests gibt es leichte Gewinne oder Verluste, die das Unternehmen bei reasoning-lastigen Aufgaben auf kürzere Antworten zurückführt. Diese Lücke schließe sich bei Tests mit vergleichbarer Tokenlänge.

Benchmark DeepSeek-V3.1-Terminus DeepSeek-V3.2-Exp
Reasoning Mode w/o Tool Use
MMLU-Pro 85.0 85.0
GPQA-Diamond 80.7 79.9
Humanity's Last Exam 21.7 19.8
LiveCodeBench 74.9 74.1
AIME 2025 88.4 89.3
HMMT 2025 86.1 83.6
Codeforces 2046 2121
Aider-Polyglot 76.1 74.5
Agentic Tool Use
BrowseComp 38.5 40.1
BrowseComp_zh 45.0 47.9
SimpleQA 96.8 97.1
SWE Verified 68.4 67.8
SWE-bench Multilingual 57.8 57.9
Terminal-bench 36.7 37.7

Zwar bleibt die Leistung unverändert im Vergleich zum Vorgänger, aber die dazu gewonnene Effizienz wirkt sich massiv auf die Kosten aus: Die API-Preise wurden um 50 bis 75 Prozent gesenkt. Das wiederum könnte den Druck auf westliche Anbieter weiter verstärken, die proprietäre Modelle auf ähnlichem Niveau zu viel höheren Preisen anbieten, insbesondere Anthropic. Gleichzeitig gibt es jedoch ein teils begründetes Misstrauen gegenüber chinesischen Modellen, das den Schaden hier begrenzen dürfte.

Neuer Preis Alter Preis Reduktion
Input (Cache Hit) 0,028 US-Dollar / 1 Mio. Tokens 0,07 US-Dollar / 1 Mio. Tokens -60%
Input (Cache Miss) 0,28 US-Dollar / 1 Mio. Tokens 0,56 US-Dollar / 1 Mio. Tokens -50%
Output 0,42 US-Dollar / 1 Mio. Tokens 1,68 US-Dollar / 1 Mio. Tokens -75%

Verfügbarkeit und Zugang

Deepseek-V3.2-Exp ist ab sofort über mehrere Kanäle verfügbar: Die Web-Oberfläche bietet direkten Zugang zum Chatbot, während die mobile App für iOS und Android unterwegs genutzt werden kann. Entwickler können das Modell über die API in eigene Anwendungen integrieren. Die Modell-Checkpoints stehen zudem auf Hugging Face zum Download bereit. V3.1-Terminus bleibt für Vergleichstests über eine temporäre API bis zum 15. Oktober 2025 erreichbar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Deepseek hat das Sprachmodell Deepseek-V3.2-Exp vorgestellt, das mit einer neuen Attention-Architektur (Deepseek Sparse Attention) besonders lange Kontexte effizienter verarbeitet und auf Basis des Vorgängermodells V3.1-Terminus entwickelt wurde.
  • Das Modell erzielt laut Benchmarks eine vergleichbare Leistung zu V3.1-Terminus, ist aber viel günstiger.
  • Deepseek senkt entsprechend die API-Preise für V3.2-Exp um 50 bis 75 Prozent und macht das Modell sofort über App, Web und API verfügbar.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!