Mathe-Benchmark zeigt: KI-Modelle liefern selbstbewusst Antworten auf unlösbare Aufgaben
Ein Konsortium von 64 Mathematikern hat einen neuen Benchmark für KI-Modelle gebaut, der zwei Schwächen sichtbar macht: forschungsnahe Mathematik und das Erkennen unlösbarer Aufgaben.
Nach dem IMO-Gold-Niveau aktueller Spitzenmodelle sucht die KI-Forschung nach neuen mathematischen Messlatten. Der Benchmark namens SOOHAK, entwickelt unter anderem an der Carnegie Mellon University, bei EleutherAI und an der Seoul National University, besteht aus 439 selbst verfassten Aufgaben.
Sie teilen sich in zwei Bereiche auf: ein "Challenge"-Set mit 340 Aufgaben auf Graduierten- und Forschungsniveau sowie ein "Refusal"-Set mit 99 absichtlich fehlerhaften Problemen, die etwa Widersprüche enthalten oder keine eindeutige Antwort zulassen.
Anders als gängige Sammlungen wurde SOOHAK nicht aus Wettbewerben oder Lehrbüchern zusammengetragen, sondern komplett neu geschrieben, darunter 38 Professoren, 25 Promovierende und Postdocs sowie fünf IMO-Medaillisten. Jeder Beitragende musste vor der Einreichung versichern, ohne KI-Hilfe gearbeitet zu haben. Wer versuchte, LLM-generierte Aufgaben einzuschmuggeln, wurde ausgeschlossen.

Forschungsnahe Mathematik bleibt eine harte Mauer
Auf dem Challenge-Set erreicht laut den Autoren Googles Gemini 3 Pro mit 30 Prozent die höchste Genauigkeit, gefolgt von GPT-5 (5.1, 5.2) mit 26 Prozent. Claude Opus 4.5 fällt auf 10 Prozent zurück. Frei verfügbare Modelle wie Kimi-2.5, Qwen3-235B und GPT-OSS-120B bleiben durchgehend unter 15 Prozent. 124 der Challenge-Aufgaben konnte kein einziges getestetes Modell lösen.

Auf dem leichteren Begleit-Set SOOHAK-Mini, das von Schulolympiaden bis zum frühen Universitätsniveau reicht, liegen die Werte deutlich höher, insbesondere die Spitzenmodelle rücken dort näher zusammen. Erst beim Sprung auf forschungsnahe Mathematik bricht das Niveau ein, besonders bei den frei verfügbaren Modellen. Das deutet nach Einschätzung der Autoren darauf hin, dass Open-Weight-Systeme schlechter auf unpubliziertes Material übertragen, weil ihnen die Trainingsabdeckung in Nischenbereichen fehlt.
Wenn die Aufgabe keine Lösung hat, raten die Modelle trotzdem
Der eigentliche Bruch mit bisherigen Benchmarks liegt im Refusal-Set ("Ablehnen"). Es enthält Aufgaben, die während der Qualitätskontrolle als unlösbar verworfen wurden, weil ihnen etwa Annahmen fehlen oder sie sich widersprechen. Ein Modell gilt nur dann als korrekt, wenn es den Mangel erkennt und benennt, statt selbstbewusst eine Zahl zu liefern.

Kein einziges Modell überschreitet hier die 50-Prozent-Marke. Am besten schneidet das frei verfügbare GLM-5 mit knapp unter 50 Prozent ab und übertrifft damit GPT-5 und Gemini 3 Pro. Die Qwen3-Familie fällt mit unter 3 Prozent dramatisch ab und scheitert damit fast immer daran, den Mangel der Aufgabe korrekt zu diagnostizieren.
Die Autoren beschreiben das Erkennen fehlerhafter Probleme als "neues Optimierungsziel, das aktuelle Modelle nicht direkt adressieren". Während die Lösungsraten mit größerem Modell und längerem Reasoning-Budget annähernd linear steigen, gilt das für Refusal nicht. Mehr Rechenleistung macht Modelle also besser im Lösen, aber nicht zurückhaltender im Eingestehen, dass eine Aufgabe gar keine Lösung hat.

Olympiade-Erfahrung schlägt Forschungstiefe
Für eine menschliche Vergleichsmessung rekrutierte das Team 25 Teilnehmende in fünf Gruppen, von IMO-Medaillisten bis zu promovierten Mathematikerinnen. Auf einer Auswahl von 79 Aufgaben lösten die Gruppen zusammen 51 Prozent. Nur Gemini-3-Pro übertraf diese kombinierte menschliche Abdeckung mit 61 Prozent.

Die Gruppe aus promovierten Forschenden schnitt schlechter ab als Studierende mit Olympiade-Hintergrund. Die Autoren führen das auf das Format zurück: Das 4,5-Stunden-Zeitfenster belohnt kurze Lösungswege, wie sie im Mathematik-Wettkampf trainiert werden, während die thematische Breite des Benchmarks engen Forschungsspezialisierungen wenig nützt. SOOHAK misst damit primär Wettbewerbsmathematik unter Zeitdruck, nicht Forschungstiefe.
Embargo bis Ende 2026 und Grenzen des Formats
Um Kontamination der Trainingsdaten zu verhindern, bleibt der vollständige Datensatz bis Ende 2026 unter Verschluss. Bis dahin bietet das Team Modellauswertungen auf Anfrage an.
Im Rückblick räumen die Autoren ein, dass das Format mit eindeutigen Zahlenantworten an Grenzen stößt. Viele Bereiche der höheren Mathematik ließen sich natürlicher über Beweise, Konstruktionen oder Gegenbeispiele bewerten. Künftige Benchmarks müssten reichhaltigere Verfahren entwickeln, etwa über formale Beweisassistenten oder selektive Expertenbewertung.
Wie tief KI-Modelle tatsächlich in die Forschungsmathematik vordringen, ist umstritten. Der Fields-Medaillist Timothy Gowers berichtete kürzlich, dass ChatGPT 5.5 Pro in unter zwei Stunden ein Ergebnis auf Promotionsniveau in der Zahlentheorie erzielte und eine exponentielle Schranke auf eine polynomielle verbesserte. Auch GPT-5.2 Pro lieferte einen neuen Beweis zum Erdős-Problem #281, den der Mathematiker Terence Tao als "ziemlich anders" als frühere Beweise einstufte.
Tao selbst ordnet solche Erfolge jedoch zurückhaltend ein: In einer systematischen Auswertung offener Erdős-Probleme liege die tatsächliche Erfolgsquote der Modelle nur bei ein bis zwei Prozent und konzentriere sich auf die einfacheren Fälle. Genau diese Lücke zwischen einzelnen spektakulären Treffern und breiter Forschungskompetenz versucht SOOHAK systematisch messbar zu machen.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenDer Rest ist für Abonnenten.
Jetzt Abo abschließen.
- Zugriff auf alle THE DECODER Artikel.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.