Inhalt
summary Zusammenfassung

Ein experimentelles Sprachmodell von OpenAI hat erstmals Aufgaben der Internationalen Mathematik-Olympiade (IMO) auf Goldmedaillen-Niveau gelöst – ein möglicher Meilenstein für KI-Systeme mit allgemeinem Denkvermögen. Die Ergebnisse sind bislang nicht unabhängig bestätigt.

Anzeige

Ein experimentelles Sprachmodell von OpenAI hat bei Aufgaben der Internationalen Mathematik-Olympiade (IMO) 2025 eine Leistung erzielt, die einer Goldmedaille entspricht. Laut den OpenAI-Forschern Alexander Wei und Noam Brown löste das Modell die ersten fünf der sechs offiziellen Aufgaben und erreichte 35 von 42 möglichen Punkten.

Die IMO gilt als anspruchsvollster Mathematikwettbewerb für Schüler. Ihre Aufgaben erfordern kreative, ausdauernde und logisch präzise Denkprozesse. Wei zufolge ist das OpenAI-Modell das erste KI-System, das auf diesem Niveau mithalten kann: Es sei in der Lage, "komplexe, wasserdichte Argumente auf dem Niveau menschlicher Mathematiker" zu formulieren.

Bild: Screenshot via X

Die Einreichungen wurden unter Wettbewerbsbedingungen erstellt: zwei Sitzungen à 4,5 Stunden, ohne Hilfsmittel, mit Lösungen in natürlicher Sprache. Bewertet wurden sie anonym von ehemaligen IMO-Medaillengewinnern. Die vollständigen Lösungen sind auf Github einsehbar.

Anzeige
Anzeige

Raum für noch mehr Skalierung

Das Modell ist anders als Deepminds AlphaGeometry kein auf Mathematik spezialisiertes System, sondern weiter ein Reasoning-Sprachmodell, das laut Brown "neue experimentelle Techniken" im Bereich Generalisierung und testzeitbasierter Skalierung nutzt.

"o1 hat für Sekunden nachgedacht, Deep Research für Minuten. Dieses Modell denkt stundenlang nach", schreibt Brown. Das Modell sei effizienter im Denken und habe noch Skalierungspotenzial. Bereits eine leichte Überlegenheit gegenüber menschlicher Leistung könne in der Wissenschaft bedeutsam sein, so Brown weiter.

OpenAI plant derzeit keine Veröffentlichung des Modells oder eines ähnlich leistungsfähigen mathematischen Modells in den kommenden Monaten. Es handle sich um ein reines Forschungsprojekt. GPT-5 sei zwar "bald" geplant, so Wei, habe aber nichts mit dem IMO-Modell zu tun. Entwickelt wurde es von einem kleinen Team unter Weis Leitung.

Brown deutet an, dass OpenAI an einem entsprechenden Produkt arbeitet und zukünftige Versionen angesichts des rasanten Fortschritts noch leistungsfähiger sein könnten. Das aktuelle Ergebnis sei selbst für OpenAI überraschend und ein "Meilenstein, den viele noch Jahre in der Zukunft gesehen hätten."

Aktuelle KI-Modelle sind weit abgeschlagen

Dass OpenAI gerade jetzt diese inoffiziellen Resultate veröffentlicht, ist kein Zufall: Denn die Ergebnisse aktueller KI-Modelle bei der jüngsten Mathematik-Olympiade enttäuschten eher.

Empfehlung

Die Plattform MathArena.ai bewertete mehrere führende Sprachmodelle – darunter Gemini 2.5 Pro, Grok-4, DeepSeek-R1 sowie OpenAIs eigene Modelle o3 und o4-mini – anhand der IMO-2025-Aufgaben. Keines der Modelle erreichte die für eine Bronzemedaille nötigen 19 Punkte. Gemini 2.5 Pro schnitt mit 13 von 42 Punkten am besten ab, alle anderen lagen deutlich darunter.

Aktuelle Sprachmodelle mit Reasoning schneiden bei der Matheolympiade schlecht ab. | Bild: Matharena.ai

Trotz aufwendiger Best-of-32-Auswahl und Bewertungen durch IMO-Experten zeigten sich in den Ergebnissen gravierende Schwächen: logische Fehler, fehlende Begründungen und erfundene Theoreme waren häufig.

Vor diesem Hintergrund erscheint OpenAIs Goldmeldung auch als gezielte Reaktion auf die im MathArena-Test deutlich gewordene Leistungsgrenze aktueller Systeme. Das schmälert den Fortschritt nicht – vorausgesetzt, er lässt sich reproduzieren und auf reale Anwendungsbereiche übertragen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Ein experimentelles Sprachmodell von OpenAI hat erstmals Aufgaben der Internationalen Mathematik-Olympiade auf Goldmedaillen-Niveau gelöst – eine Leistung, die bislang von keinem anderen KI-System erreicht wurde. Die Ergebnisse sind bisher nicht unabhängig bestätigt.
  • Anders als spezialisierte Mathematik-KIs wie AlphaGeometry ist das Modell ein allgemeines Reasoning-Sprachmodell, das laut OpenAI neue Techniken zur Generalisierung und Skalierung nutzt.
  • Im Vergleich dazu scheiterten aktuelle KI-Modelle wie Gemini 2.5 Pro, Grok-4 und OpenAIs o3 und o4-mini an den IMO-2025-Aufgaben und blieben teils deutlich unter der für eine Bronzemedaille nötigen Punktzahl.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!