Inhalt
summary Zusammenfassung

Das chinesische KI-Unternehmen Deepseek stellt sein bisher leistungsstärkstes Sprachmodell V3 vor, das insbesondere bei logischen Aufgaben verbessert wurde und in Benchmarks mit führenden proprietären Modellen mithalten und diese sogar übertreffen kann.

Anzeige

Deepseek hat sein neues Sprachmodell Deepseek-V3 vorgestellt, es steht ab sofort bei Github zum Download bereit. Laut des technischen Berichts handelt es sich um ein Mixture-of-Experts-Modell (MoE) mit insgesamt 671 Milliarden Parametern, von denen für jedes Token 37 Milliarden aktiviert werden.

Das Vorgängermodell Deepseek-V2 hatte insgesamt 236 Milliarden Parameter, von denen 21 Milliarden für die Inferenz aktiv waren. V3 wurde zudem auf 14,8 Billionen Token trainiert, fast doppelt so viele wie sein Vorgänger.

Nach Angaben von Deepseek dauerte das gesamte Training 2,788 Millionen H800-GPU-Stunden und kostete rund 5,576 Millionen US-Dollar. Trainiert wurde auf einem Cluster mit "nur" rund 2.000 GPUs - im Vergleich zu den 100.000 Grafikkarten, die Meta, xAI, OpenAI und Co. für das KI-Training einsetzen. Diese Effizienzsteigerung führt Deepseek auf sein optimiertes Co-Design von Algorithmen, Frameworks und Hardware zurück.

Anzeige
Anzeige
Bild: Deepseek

Ein besonderer Fokus lag auf der Verbesserung des logischen Denkens. Dafür nutzte Deepseek beim Post-Training ein spezielles Verfahren: Das Modell lernte von einem Ende November vorgestellten "Deepseek-R1"-Modell, das ähnlich wie OpenAIs o1 speziell für komplexe Denkketten entwickelt wurde.

Deutlich schneller als der Vorgänger

Nach Unternehmensangaben erreicht Deepseek-V3 eine Geschwindigkeit von 60 Token pro Sekunde und ist damit etwa dreimal schneller als sein Vorgänger. Die API-Preise bleiben im Vergleich zu Deepseek-V2 zunächst unverändert. Ab dem 8. Februar werden dann für Eingaben 0,27 US-Dollar pro Million Token berechnet (0,07 US-Dollar bei Cache-Treffern) und für Ausgaben 1,10 US-Dollar pro Million Token.

In Evaluierungen zeigt sich Deepseek-V3 als das derzeit stärkste Open-Source-Modell. Besonders bei Code- und Mathematikaufgaben übertrifft es andere quelloffene LLMs deutlich.

Säulendiagramm: Vergleich von sechs KI-Modellen in sechs Benchmark-Tests, DeepSeek-V3 führt in MMLU-Pro, GPQA-Diamond und MATH 500, Claude-3.5 bei SWE-bench.
Deepseek-V3 erreicht in drei der sechs LLM-Benchmarks neue Bestwerte. Besonders stark sind die Steigerungen im Mathematik-Benchmark MATH 500 (90,2 %) und in den Programmier-Benchmarks Codeforces und SWE. | Bild: Deepseek

In vielen Benchmarks erreicht es laut Deepseek eine mit führenden proprietären Modellen wie GPT-4o und Claude-3.5-Sonnet vergleichbare Leistung. DeepkSee-v3 dürfte damit der klare Preis-Leistungs-Sieger am Markt sein.

Streudiagramm: Vergleich von KI-Sprachmodellen nach MMLU-Score und API-Preis, DeepSeek-V3 als Spitzenreiter markiert mit rotem Stern.
Deepseek-V3 erreicht im Vergleich zu anderen Sprachmodellen das beste Verhältnis zwischen Leistung und Preis. | Bild: Deepseek

Deepseek-V3 wird unter der Deepseek License Agreement (Version 1.0) veröffentlicht. Diese Lizenz gewährt Nutzern eine kostenlose, weltweite, nicht-exklusive und unwiderrufliche Copyright- und Patentlizenz. Sie erlaubt die Vervielfältigung, Änderung und Verbreitung des Modells, auch zu kommerziellen Zwecken. Verboten ist unter anderem die militärische Nutzung oder die vollautomatisierte Nutzung im Rahmen von Rechtsfragen.

Empfehlung

Für die Zukunft plant Deepseek weitere Verbesserungen der Modellarchitektur, die Firma möchte die "künstlichen Grenzen" der Transformer-Architektur durchbrechen, und die Unterstützung für unbegrenzte Kontextlängen. Langfristig strebt Deepseek nach eigenen Angaben ähnlich wie OpenAI eine schrittweise Annäherung an eine künstliche allgemeine Intelligenz (AGI) an.

Deepseek wurde 2023 gegründet und bietet verschiedene große Sprachmodelle für unterschiedliche Anwendungsfälle wie Mathematik und Coding an. Die Modelle sind Open Source und kostenlos für lokale Ausführung verfügbar, können aber auch über eine API genutzt werden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das chinesische KI-Unternehmen DeepSeek hat sein bisher leistungsfähigstes Sprachmodell DeepSeek-V3 vorgestellt, ein Mixture-of-Experts-Modell mit 671 Milliarden Parametern.
  • DeepSeek-V3 wurde auf 14,8 Billionen Token trainiert und erreicht eine Geschwindigkeit von 60 Token pro Sekunde. In Evaluierungen zeigt es sich als das derzeit stärkste Open-Source-Modell. Es kann in vielen Benchmarks mit führenden proprietären Modellen mithalten.
  • Für die Zukunft plant DeepSeek weitere Verbesserungen der Modellarchitektur, die Unterstützung für unbegrenzte Kontextlängen und strebt langfristig eine schrittweise Annäherung an eine künstliche allgemeine Intelligenz (AGI) an.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!