Deepseek erreicht laut eigenen Angaben Gold-Niveau bei der Mathe-Olympiade

28. November 2025

Nano Banana Pro prompted by THE DECODER

Kurz & Knapp

Das chinesische Start-up Deepseek hat mit DeepseekMath-V2 ein KI-Modell vorgestellt, das bei renommierten Mathematik-Wettbewerben Ergebnisse auf Goldmedaillen-Niveau erzielt.
Das Modell kann eigene Beweise bewerten und iterativ verbessern und wird darauf incentiviert, möglichst viele Probleme in den eigenen Beweisen vor der Finalisierung zu identifizieren und zu beheben.
Deepseek demonstriert mit dieser Entwicklung, dass chinesische KI-Start-ups im weltweiten Wettbewerb mit US-Laboren wie OpenAI und Google mithalten können.

Das chinesische Start-up Deepseek meldet mit seinem neuen Modell DeepSeekMath-V2 Erfolge auf höchstem Niveau und bleibt damit den westlichen KI-Laboren auf den Fersen.

Das neue Modell DeepSeekMath-V2 erzielte laut Hersteller bei der Internationalen Mathematik-Olympiade (IMO) 2025 und der chinesischen CMO 2024 Ergebnisse auf Goldmedaillen-Niveau. Beim Putnam-Wettbewerb erreichte die KI 118 von 120 Punkten und übertraf damit das beste menschliche Ergebnis von 90 Punkten.

Balkendiagramm „Human evaluations“ für IMO‑ProofBench Basic und Advanced über mehrere Modelle. DeepSeekMath‑V2 (Heavy) erzielt auf Basic 99,0% (Bestwert) und auf Advanced 61,9% (zweiter Platz hinter Gemini Deep Think/IMO Gold mit 65,7%). Andere Modelle liegen auf Basic zwischen 27,1% und 89,0% und auf Advanced zwischen 3,8% und 37,6%. — DeepseekMath‑V2 (Heavy) erzielt im IMO‑ProofBench 99 Prozent auf der Basic-Stufe und 61,9 Prozent auf Advanced, nur knapp hinter Google Deepminds Gemini Deep Think (65,7 Prozent). | Bild: Shao et al.

Deepseek erklärt in der technischen Dokumentation, dass bisherige KIs oft korrekte Endergebnisse lieferten, ohne den mathematischen Lösungsweg sauber herzuleiten. Um dies zu beheben, nutzt das neue Modell einen mehrstufigen Prozess. Ein sogenannter „Verifier“ bewertet die Beweise, während ein „Meta-Verifier“ kontrolliert, ob die gefundene Kritik berechtigt ist. Das System lernt so, eigene Lösungen noch während der Erstellung zu prüfen und iterativ zu verbessern.

Die Tabelle zeigt, welche Aufgaben DeepseekMath‑V2 in den drei Wettbewerben gelöst hat: Bei der IMO 2025 löste DeepseekMath‑V2 fünf von sechs Aufgaben vollständig, bei der CMO 2024 vier Aufgaben und eine mit Teilpunkten. Im Putnam 2024 gelang dem Modell die vollständige Lösung von elf Aufgaben, bei einer gab es Teilpunkte. — Bei der IMO 2025 löste DeepseekMath‑V2 fünf von sechs Aufgaben vollständig, bei der CMO 2024 vier Aufgaben und eine mit Teilpunkten. Im Putnam 2024 gelang dem Modell die vollständige Lösung von elf Aufgaben, bei einer gab es Teilpunkte. | Bild: Shao et al.

Das Paper macht keine explizite Aussage dazu, ob während der Tests externe Hilfsmittel wie Taschenrechner oder Code-Interpreter verwendet wurden, aber das Vorgehen legt nahe, dass das nicht der Fall war. Beschrieben wird, dass alle Experimente mit einem einzigen Modell durchgeführt wurden, das sowohl Beweisgenerierung als auch -verifikation übernimmt. Der Schwerpunkt liegt darauf, dass das Modell seine eigenen Beweise bewertet und iterativ verbessert. Bei komplexen Aufgaben skaliert das System die Rechenleistung und prüft parallel viele Lösungswege. Das Modell basiert technisch auf Deepseek-V3.2-Exp-Base.

Chinas KI-Start-ups sind US-Laboren weiter auf den Fersen

Zuvor hatten OpenAI und Google Deepmind angekündigt, dass bislang unveröffentlichte KI-Modelle bei Mathematik und Coding neue Bestwerte erzielt hätten, die bislang Menschen vorbehalten waren. Bemerkenswert ist das deshalb, weil bisher davon ausgegangen wurde, dass Sprachmodelle derart komplexe Aufgaben nicht allein durch natürliche Sprache lösen könnten.

Zudem sollen diese KI-Modelle wenig für den Mathewettbewerb optimiert worden sein, sondern ihren Erfolg durch generelle Logik erzielt haben. Das ist ein Indiz für weiteren schnellen Fortschritt in der KI-Entwicklung. Ein OpenAI-Forscher kündigte kürzlich an, dass eine nochmals deutlich verbesserte Version ihres Mathemodells in den kommenden Monaten veröffentlicht werden soll.

Die Veröffentlichung von Deepseek ist besonders bemerkenswert, da das chinesische Start-up damit beweist, den westlichen Laboren weiter auf den Fersen zu sein. Zwar galten die Erfolge von OpenAI und Google im Sommer als wichtiger Schritt, doch Details zu Rechenaufwand oder Architektur blieben unbekannt. Deepseek agiert hier deutlich transparenter.

Das kann auch als weiterer Angriff auf die westliche KI-Ökonomie gewertet werden, ein Kunststück, das Deepseek bereits Anfang des Jahres gelang: Wie der Economist berichtet, setzen viele US-KI-Start-ups aus Kostengründen inzwischen auf chinesische Open-Source-Modelle, anstatt auf die Angebote der großen amerikanischen Anbieter zurückzugreifen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Hugging Face | Github