Inhalt
summary Zusammenfassung

Das chinesische KI-Unternehmen Deepseek soll die Veröffentlichung seines neuen KI-Modells verzögert haben, nachdem der Versuch gescheitert war, es mit den Chips des heimischen Tech-Giganten Huawei zu trainieren.

Anzeige

Laut einem Bericht der Financial Times wurde Deepseek nach der Vorstellung seines R1-Modells im Januar von chinesischen Behörden dazu ermutigt, auf Huaweis Ascend-Prozessoren statt auf die marktführenden Systeme von Nvidia zu setzen.

Der Versuch misslang jedoch. Die Konsequenz war, dass das Unternehmen für das rechenintensive Training auf Nvidia-Chips zurückgreifen musste, so die FT.

Technische Probleme zwingen zum Umstieg auf Nvidia

Laut dem Bericht stieß Deepseek bei dem Versuch, sein R2-Modell zu trainieren, auf "anhaltende technische Probleme" mit den Ascend-Chips. Selbst ein Team von Huawei-Ingenieuren, das zur Unterstützung vor Ort war, konnte demnach keinen erfolgreichen Trainingslauf durchführen.

Anzeige
Anzeige

Diese Schwierigkeiten sollen der Hauptgrund dafür gewesen sein, dass sich der Start des Modells von Mai verzögerte und das Unternehmen an Boden gegenüber Konkurrenten verlor. Als Lösung soll Deepseek nun Nvidia-Chips für das Training und Huaweis Ascend-Chips für die weniger anspruchsvolle Inferenz, also die Anwendung des fertigen Modells, einsetzen. Brancheninsider führten gegenüber der Financial Times an, dass chinesische Chips generell unter Stabilitätsproblemen, langsamerer Konnektivität und unterlegener Software im Vergleich zu Nvidia-Produkten leiden würden.

Deepseek V3.1 für neue China-Chips optimiert?

Inzwischen hat Deepseek aber auch eine aktualisierte Version seines V3-Modells veröffentlicht. Wie The Register berichtet, wurde das neue Modell V3.1 mit einem speziellen Datentyp namens UE8M0 FP8 trainiert. In einem WeChat-Kommentar erklärte das Unternehmen, dieser Datentyp sei "für die nächste Generation von im Inland produzierten Chips konzipiert, die bald veröffentlicht werden".

Diese Aussage deutet darauf hin, dass bald leistungsfähigere Beschleuniger aus China auf den Markt kommen könnten, da Huaweis aktueller Top-Chip Ascend 910C den FP8-Datentyp nicht nativ unterstützt. Der Wechsel vom zuvor genutzten E4M3-Format scheint daher weniger auf Effizienz als auf Kompatibilität mit zukünftiger Hardware abzuzielen. Bei V3.1 handelt es sich um eine Weiterentwicklung eines früheren V3-Checkpoints, allerdings ist es ein hybrides Modell mit einem Reasoning-Modus.

Ritwik Gupta, ein KI-Forscher an der University of California, Berkeley, sagte der Financial Times, dass Huawei wohl "Wachstumsschmerzen" bei seinen Chips habe, es aber nur eine "Frage der Zeit" sei, bis das Unternehmen aufholt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Laut der Financial Times musste Deepseek die Veröffentlichung seines neuen KI-Modells verschieben, nachdem der Versuch scheiterte, das Modell mit Huaweis Ascend-Chips statt mit Nvidia-Hardware zu trainieren. Technische Probleme machten einen erfolgreichen Trainingslauf unmöglich, selbst mit Unterstützung von Huawei-Ingenieuren.
  • Als Folge nutzt Deepseek nun Nvidia-Chips für das Training des Modells und Huaweis Chips nur noch für die weniger rechenintensive Inferenz. Brancheninsider berichten, dass chinesische Chips derzeit Stabilitätsprobleme, langsamere Konnektivität und unterlegene Software im Vergleich zu Nvidia aufweisen.
  • Deepseek hat zudem eine überarbeitete Version seines V3-Modells vorgestellt, die mit einem neuen Datentyp speziell für kommende chinesische KI-Beschleuniger trainiert wurde. Laut dem Unternehmen ist dies ein Schritt zur Kompatibilität mit leistungsfähigeren, bald erscheinenden Chips aus China.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!