Google Deepmind erreicht mit Gemini Deep Think erstmals eine Goldmedaille bei der Internationalen Mathematik-Olympiade – allein durch natürliche Sprachverarbeitung. Es könnte sich um einen möglichen Durchbruch für die Logikfähigkeiten von Sprachmodellen handeln, auch wenn die Details noch spärlich sind.
Google Deepmind hat mit einer fortgeschrittenen Version seines KI-Modells Gemini erstmals Goldniveau bei der Internationalen Mathematik-Olympiade (IMO) erreicht. Das System löste fünf der sechs komplexen Aufgaben aus Algebra, Kombinatorik, Geometrie und Zahlentheorie korrekt und erzielte 35 von 42 möglichen Punkten – genug für eine Goldmedaille, die laut IMO nur rund acht Prozent der menschlichen Teilnehmenden erhalten. Die Lösungen (PDF-Download) wurden offiziell von IMO-Gutachtern bewertet und als "klar, präzise und meist leicht nachvollziehbar" eingestuft, wie Deepmind mitteilt.
Nur natürliche Sprache, keine Werkzeuge
Der entscheidende Unterschied zum Vorjahr: Während Deepmind 2024 mit AlphaProof und AlphaGeometry auf formale Sprachen wie Lean und tagelangen Rechenaufwand setzte, arbeitete Gemini Deep Think dieses Jahr rein mit Text.
Das Modell generierte vollständige Beweise direkt aus den offiziellen IMO-Aufgabenstellungen in natürlicher Sprache – innerhalb des viereinhalbstündigen Zeitlimits pro Sitzung, ohne Zugriff auf Tools oder andere symbolische Hilfsmittel. Deepmind betont, dass Gemini exakt dieselben Problemstellungen und Zeitlimits erhielt wie menschliche Teilnehmer – ein Novum gegenüber den Vorjahresansätzen.
Gemini Deep Think wurde laut Deepmind zusätzlich mit speziellen Reinforcement-Learning-Techniken trainiert, die gezielt mehrschrittiges Schlussfolgern, Problemlösen und Theorembeweise fördern sollen. Ergänzend erhielt das Modell mehr "Denkzeit", Zugriff auf einen kuratierten Korpus hochwertiger Lösungen früherer IMO-Aufgaben sowie allgemeine Hinweise zur Herangehensweise an diese Art von Problemen. Der Einsatz dieser Trainingsmethoden soll es dem Modell ermöglichen, komplexe Lösungswege parallel zu verfolgen und zu kombinieren, bevor es eine finale Antwort generiert.
Gemini Deep Think basiert auf dem neuen "Deep Think"-Modus von Gemini 2.5 Pro, der laut Google speziell für komplexe Schlussfolgerungen entwickelt wurde. Er erlaubt dem Modell, mehrere Hypothesen parallel zu verfolgen, bevor es eine Antwort generiert. Der Modus befindet sich derzeit in der Testphase mit ausgewählten Nutzern. Bemerkenswert ist, dass die Standardversion von Gemini 2.5 Pro nur 31,5 Prozent der Olympia-Aufgaben lösen konnte.
Auch OpenAI holt Mathe-Gold
Auch OpenAI hatte vergangenes Wochenende IMO-Gold bekannt gegeben: Ein internes Sprachmodell löste unter Wettbewerbsbedingungen ebenfalls fünf der sechs Aufgaben korrekt. Bewertet wurden die Beweise von drei ehemaligen IMO-Goldmedaillengewinnern.
Laut OpenAI arbeitete das Modell über zwei viereinhalbstündige Sitzungen hinweg konsistent, ohne Internetzugang, Code oder Werkzeuge – ausschließlich in natürlicher Sprache. Das Unternehmen betont, so wie auch Deepmind, dass es sich um ein generalistisches Reasoning-Modell handelt, nicht um ein speziell für die IMO trainiertes System.
Eine solche Leistung galt bis vor Kurzem als kaum vorstellbar. Selbst der Mathematiker Terence Tao hielt es im Juni für unwahrscheinlich, dass ein Sprachmodell IMO-Aufgaben in Echtzeit lösen könne. Umso überraschender ist es, dass nun gleich zwei Systeme diese Hürde zeitgleich genommen haben.
Potenzial und offene Fragen
Beide Erfolge deuten darauf hin, dass KI-Modelle mit fortgeschrittenem Reasoning und Reinforcement Learning zunehmend in der Lage sind, komplexe mathematische Probleme über Stunden hinweg autonom zu lösen – ohne symbolische Hilfsmittel.
Zugleich werfen die Resultate methodische Fragen auf: OpenAI macht keine Angaben zur Architektur, zum Training oder zu den Ressourcen, die für das IMO-Modell benötigt wurden. Auch bei Deepmind bleibt offen, wie skalierbar und übertragbar der Deep-Think-Ansatz ist – etwa auf andere Aufgaben oder wissenschaftliche Domänen. Unklar ist zudem, wie zuverlässig diese Systeme langfristig unter Realbedingungen funktionieren – etwa bei längeren Beweisführungen oder in anderen mathematischen Disziplinen.
Fest steht jedoch: Der Ansatz funktioniert in der Praxis. Wie genau, ist vorerst zweitrangig. Die Fähigkeit, über Stunden hinweg konsistent und korrekt zu argumentieren, galt lange als Grenze für Sprachmodelle. Der Wettlauf um reasoningfähige KI hat eine neue Phase erreicht – und die Maschine rückt dem Menschen, zumindest im mathematischen Denken, deutlich näher.