Inhalt
summary Zusammenfassung

DeepSeek-AI hat das Open-Source-Sprachmodell DeepSeek-Coder-V2 veröffentlicht. Es soll in Sachen Programmcode-Generierung mit führenden kommerziellen Modellen wie GPT-4, Claude oder Gemini mithalten können.

Anzeige

DeepSeek-Coder-V2 baut auf dem Vorgängermodell DeepSeek-V2 auf und wurde zusätzlich mit 6 Billionen Token aus einem hochwertigen Multi-Source-Korpus trainiert. Das Modell unterstützt jetzt 338 statt bisher 86 Programmiersprachen und kann Kontexte von bis zu 128.000 statt 16.000 Token verarbeiten.

Der Trainingsdatensatz besteht zu 60 Prozent aus Quellcode, zu 10 Prozent aus mathematischen Daten und zu 30 Prozent aus natürlicher Sprache. Der Code-Anteil enthält 1,17 Billionen Token aus GitHub und CommonCrawl, der mathematische Teil 221 Milliarden Token aus CommonCrawl.

DeepSeek-Coder-V2 nutzt Mixture-of-Experts-Architektur und wird in zwei  Varianten angeboten: Das 16-Milliarden-Parameter-Modell hat lediglich 2,4 Milliarden aktive Parameter, das 236-Milliarden-Modell nur 21 Milliarden. Beide Varianten wurden insgesamt mit 10,2 Billionen Token trainiert.

Anzeige
Anzeige

DeepSeek-Coder-V2 bricht die Dominanz geschlossener Modelle

In Benchmarks wie HumanEval oder MBPP kann DeepSeek-Coder-V2 laut DeepSeek-AI mit den besten kommerziellen Modellen mithalten. Die 236-Milliarden-Version erreichte im Durchschnitt 75,3 Prozent. Das ist zwar etwas schlechter als GPT-4o mit 76,4 Prozent, aber besser als GPT-4 oder Claude 3 Opus.

In mathematischen Benchmarks wie GSM8K, MATH oder AIME 2024 ist DeepSeek-Coder-V2 mit den führenden kommerziellen Modellen auf Augenhöhe. In sprachlichen Aufgaben schneidet es ähnlich gut ab wie der Vorgänger DeepSeek-V2.

Bild: DeepSeek

Das DeepSeek-Coder-V2-Modell steht auf Hugging Face unter einer Open-Source-Lizenz zum Download bereit. Es kann sowohl für Forschungszwecke als auch kommerziell ohne Einschränkungen genutzt werden. Es ist außerdem über eine API verfügbar.

Trotz der beeindruckenden Ergebnisse sehen die Entwickler noch Verbesserungsbedarf bei der Fähigkeit, Instruktionen zu befolgen. Das sei wichtig, um in der realen Welt mit komplexen Programmierszenarien umgehen zu können. Daran will DeepSeek-AI in Zukunft arbeiten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • DeepSeek-AI hat das Open-Source-Sprachmodell DeepSeek-Coder-V2 veröffentlicht, das in der Programmcode-Generierung mit führenden kommerziellen Modellen wie GPT-4, Claude oder Gemini mithalten soll.
  • DeepSeek-Coder-V2 unterstützt 338 Programmiersprachen, kann Kontexte von bis zu 128.000 Token verarbeiten und wurde mit insgesamt 10,2 Billionen Token trainiert, davon 60 Prozent Quellcode, 10 Prozent mathematische Daten und 30 Prozent natürliche Sprache.
  • In Benchmarks für Code-Generierung, Mathematik und Sprache erreicht DeepSeek-Coder-V2 ähnlich gute Ergebnisse wie die besten kommerziellen Modelle - und übertrifft sie in einigen Fällen. Es steht als Open Source zum Download bereit und kann sowohl für Forschung als auch kommerziell genutzt werden.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!