Inhalt
summary Zusammenfassung

Das chinesische Start-up Deepseek beweist, dass Spitzen-KI auch ohne Vorschau (öffnet in neuem Tab)Milliardenbudget möglich ist. Sein neues Sprachmodell kann es mit den Besten aufnehmen - zu einem Bruchteil der üblichen Kosten.

Anzeige

Deepseeks neues Sprachmodell v3 kann laut einer unabhängigen Analyse von Artificial Analysis mit den weltweit führenden KI-Modellen konkurrieren - und das für nur 5,6 Millionen Dollar reine Trainingskosten.

Das Modell übertrifft nach Angaben von Artificial Analysis alle bisher veröffentlichten Open-Source-Modelle und erreicht im "Quality Index", der verschiedene Benchmarks kombiniert, nahezu die Leistung von Anthropics Claude 3.5 Sonnet. Lediglich die Google Gemini-Modelle und OpenAIs o-Modelle liegen noch vor Deepseek v3.

Balkendiagramm: DeepSeek V3 erzielt 80 von 100 Punkten im KI-Qualitätsindex, der MMLU, GPQA Diamond, MATH-500 und HumanEval kombiniert.
Deepseek V3 erreicht im Artificial Analysis Quality Index einen Wert von 80 Punkten. Damit positioniert sich das Modell im oberen Drittel der Vergleichsgruppe und teilt sich den sechsten Platz mit anderen führenden Modellen wie Gemini 1.5 Pro und Claude Sonnet 3.5. | Bild: Artificial Analysis

Vor allem bei technischen Aufgaben zeigt das System Stärken: Beim HumanEval-Benchmark für Programmierung erreicht es 92 Prozent, beim MATH-500-Test für mathematisches Denken 85 Prozent. Selbst Metas KI-Chefforscher Yann LeCun bezeichnet das Modell als "exzellent".

Anzeige
Anzeige
Vier Balkendiagramme vergleichen KI-Modelle: DeepSeek-V3 erreicht Spitzenwerte von 87% (MMLU), 56% (GPQA), 92% (HumanEval) und 85% (MATH-500).
Deepseek-V3 Base setzt neue Maßstäbe in der Open-Source-KI-Entwicklung hinsichtlich des Preis-Leistungs-Verhältnisses. | Bild: Artificial Analysis

Den Fortschritt speziell bei Schlussfolgerungen erzielte Deepseek anhand von Daten seines Ende November vorgestellten Reasoning-Modells R1.

Wie üblich gilt jedoch: Benchmarks sind nicht die Praxis. Deepseek v3 wird sich in realen Anwendungsszenarien erst beweisen müssen. Dennoch begeistern die guten Benchmarkergebnisse in Kombination mit den geringen Trainingskosten und der ausführlichen Erklärung im technischen Bericht derzeit die KI-Fachwelt.

Deutlich effizienter als die Konkurrenz

Für das Training des Mixture-of-Experts-Modells mit 671 Milliarden Parametern wurden nach Unternehmensangaben nur 2,78 Millionen GPU-Stunden auf NVIDIA H800-GPUs benötigt.

Zum Vergleich: Meta benötigte für sein kleineres Llama-3-Modell mit 405 Milliarden Parametern etwa elfmal so viele GPU-Stunden (30,8 Millionen).

KI-Experte Andrej Karpathy hebt diese bemerkenswerte Effizienz hervor: Üblicherweise würden für Modelle der Deepseek-V3 Leistungsklasse Cluster mit 16.000 bis 100.000 GPUs benötigt. Das chinesische Start-up hingegen nutzte nur 2.048 GPUs über einen Zeitraum von 57 Tagen.

Empfehlung

Das Budget sei für ein Modell dieser Klasse "ein Witz", so Karpathy. Die Entwicklung zeige vor allem, wie wichtig die effiziente Nutzung der vorhandenen Ressourcen sei - und dass es noch viel Optimierungspotenzial bei Daten und Algorithmen gebe. Große GPU-Cluster für Frontier-Modelle seien aber nach wie vor notwendig.

Das günstige KI-Training von Deepseek-V3 begeistert derzeit die KI-Branche. | Bild: Deepseek

Laut technischem Bericht führt Deepseek die enormen Effizienzgewinne auf ein Co-Design von Algorithmen, Frameworks und Hardware zurück. Dazu war das Unternehmen gezwungen. Denn als chinesisches Start-up hat Deepseek aufgrund von US-Exportbeschränkungen nur begrenzten Zugang zu den neuesten Nvidia-Chips.

Die für das Training verwendeten H800-GPUs - von Nvidia speziell für den chinesischen Markt in ihrer Leistung limitierte Chips - haben eine deutlich geringere GPU-Verbindungsbandbreite als die in westlichen Labors verwendeten H100-Chips. Deepseek hat daher eigene Optimierungen für die Prozessorkommunikation entwickelt, anstatt auf vorgefertigte Lösungen zurückzugreifen - ein Beispiel für Effizienzsteigerungen auf der Softwareseite.

Preisdruck auf etablierte Anbieter

Die niedrigen Entwicklungskosten und aggressive Preispolitik von Deepseek setzen die etablierten KI-Labore unter Druck. Während Unternehmen wie OpenAI noch Milliardenverluste schreiben, bietet Deepseek sein Spitzenmodell deutlich günstiger und sogar als Open Source an.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Nach Angaben von Artificial Analysis ist Deepseek v3 zwar etwas teurer als OpenAIs Sparmodell GPT-4o-mini oder Googles Gemini 1.5 Flash, aber deutlich günstiger als andere Spitzenmodelle mit vergleichbarer Leistung. Mit einem automatischen 90-Prozent-Rabatt für zwischengespeicherte Anfragen (Prompt Caching) sei es derzeit das kosteneffizienteste Modell seiner Klasse.

Die Preise pro Million Token sind im Vergleich zum Vorgänger Deepseek v2.5 zwar gestiegen - bei der Eingabe um das Doppelte auf 0,27 Dollar und bei der Ausgabe um das Vierfache auf 1,10 Dollar. Das Unternehmen bietet sein neues Modell aber noch bis Anfang Februar zum Preis des Vorgängers an. Kostenlos testen kann man V3 auf Deepseeks eigener Chat-Plattform.

Weniger Ressourcen zwingen zu Innovation

Die Entwicklung von Deepseek v3 zeigt einen interessanten Nebeneffekt der US-Exportbeschränkungen: Die technischen Limitierungen zwangen das Unternehmen zu softwareseitigen Innovationen, um die verfügbare Hardware optimal zu nutzen.

Diese Erkenntnis könnte auch für die europäische KI-Entwicklung wegweisend sein: Spitzen-KI ist offenbar auch ohne die größten GPU-Cluster möglich, wenn die vorhandenen Ressourcen optimal genutzt werden.

Das bedeutet jedoch nicht das Ende der großen Rechenzentren. Die KI-Industrie konzentriert sich zunehmend auf die Skalierung der Inferenzzeit, also der Zeit, die ein Modell erhält, um Antworten zu generieren. Wenn dieses Skalierungsprinzip erfolgreich ist, werden weiterhin große Rechenkapazitäten benötigt.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das chinesische KI-Start-up Deepseek zeigt, dass Spitzen-KI auch ohne Milliardenbudget möglich ist. Sein neues Sprachmodell v3 kann es laut einer unabhängigen Analyse von Artificial Analysis mit den weltweit führenden KI-Modellen aufnehmen - und das für nur 5,6 Millionen Dollar reine Trainingskosten.
  • Für das Training von Deepseek v3 mit 671 Milliarden Parametern wurden nur 2,78 Millionen GPU-Stunden benötigt. Zum Vergleich: Meta benötigte für sein kleineres Llama-3-Modell mit 405 Milliarden Parametern etwa elfmal so viele GPU-Stunden (30,8 Millionen).
  • Als chinesisches Start-up hatte Deepseek aufgrund von US-Exportbeschränkungen nur begrenzten Zugang zu den neuesten Nvidia-Chips. Daher musste es eigene Optimierungen entwickeln. Das zeigt, wie Beschränkungen und limitierte Ressourcen zu kreativen Lösungen führen können.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!