Ein experimentelles Sprachmodell von OpenAI hat erstmals Aufgaben der Internationalen Mathematik-Olympiade (IMO) auf Goldmedaillen-Niveau gelöst – ein möglicher Meilenstein für KI-Systeme mit allgemeinem Denkvermögen. Die Ergebnisse sind bislang nicht unabhängig bestätigt.
Ein experimentelles Sprachmodell von OpenAI hat bei Aufgaben der Internationalen Mathematik-Olympiade (IMO) 2025 eine Leistung erzielt, die einer Goldmedaille entspricht. Laut den OpenAI-Forschern Alexander Wei und Noam Brown löste das Modell die ersten fünf der sechs offiziellen Aufgaben und erreichte 35 von 42 möglichen Punkten.
Die IMO gilt als anspruchsvollster Mathematikwettbewerb für Schüler. Ihre Aufgaben erfordern kreative, ausdauernde und logisch präzise Denkprozesse. Wei zufolge ist das OpenAI-Modell das erste KI-System, das auf diesem Niveau mithalten kann: Es sei in der Lage, "komplexe, wasserdichte Argumente auf dem Niveau menschlicher Mathematiker" zu formulieren.
Die Einreichungen wurden unter Wettbewerbsbedingungen erstellt: zwei Sitzungen à 4,5 Stunden, ohne Hilfsmittel, mit Lösungen in natürlicher Sprache. Bewertet wurden sie anonym von ehemaligen IMO-Medaillengewinnern. Die vollständigen Lösungen sind auf Github einsehbar.
Raum für noch mehr Skalierung
Das Modell ist anders als Deepminds AlphaGeometry kein auf Mathematik spezialisiertes System, sondern weiter ein Reasoning-Sprachmodell, das laut Brown "neue experimentelle Techniken" im Bereich Generalisierung und testzeitbasierter Skalierung nutzt.
"o1 hat für Sekunden nachgedacht, Deep Research für Minuten. Dieses Modell denkt stundenlang nach", schreibt Brown. Das Modell sei effizienter im Denken und habe noch Skalierungspotenzial. Bereits eine leichte Überlegenheit gegenüber menschlicher Leistung könne in der Wissenschaft bedeutsam sein, so Brown weiter.
OpenAI plant derzeit keine Veröffentlichung des Modells oder eines ähnlich leistungsfähigen mathematischen Modells in den kommenden Monaten. Es handle sich um ein reines Forschungsprojekt. GPT-5 sei zwar "bald" geplant, so Wei, habe aber nichts mit dem IMO-Modell zu tun. Entwickelt wurde es von einem kleinen Team unter Weis Leitung.
Brown deutet an, dass OpenAI an einem entsprechenden Produkt arbeitet und zukünftige Versionen angesichts des rasanten Fortschritts noch leistungsfähiger sein könnten. Das aktuelle Ergebnis sei selbst für OpenAI überraschend und ein "Meilenstein, den viele noch Jahre in der Zukunft gesehen hätten."
Aktuelle KI-Modelle sind weit abgeschlagen
Dass OpenAI gerade jetzt diese inoffiziellen Resultate veröffentlicht, ist kein Zufall: Denn die Ergebnisse aktueller KI-Modelle bei der jüngsten Mathematik-Olympiade enttäuschten eher.
Die Plattform MathArena.ai bewertete mehrere führende Sprachmodelle – darunter Gemini 2.5 Pro, Grok-4, DeepSeek-R1 sowie OpenAIs eigene Modelle o3 und o4-mini – anhand der IMO-2025-Aufgaben. Keines der Modelle erreichte die für eine Bronzemedaille nötigen 19 Punkte. Gemini 2.5 Pro schnitt mit 13 von 42 Punkten am besten ab, alle anderen lagen deutlich darunter.

Trotz aufwendiger Best-of-32-Auswahl und Bewertungen durch IMO-Experten zeigten sich in den Ergebnissen gravierende Schwächen: logische Fehler, fehlende Begründungen und erfundene Theoreme waren häufig.
Vor diesem Hintergrund erscheint OpenAIs Goldmeldung auch als gezielte Reaktion auf die im MathArena-Test deutlich gewordene Leistungsgrenze aktueller Systeme. Das schmälert den Fortschritt nicht – vorausgesetzt, er lässt sich reproduzieren und auf reale Anwendungsbereiche übertragen.