Inhalt
summary Zusammenfassung

Ein nicht veröffentlichtes KI-Modell von OpenAI hat angeblich unter Wettbewerbsbedingungen fünf von sechs Aufgaben der Internationalen Mathematik-Olympiade gelöst. Doch viel interessanter als das Was ist das Wie.

Anzeige

OpenAI hat bekannt gegeben, dass ein experimentelles Sprachmodell bei einem internen Test unter IMO-Bedingungen 35 von 42 möglichen Punkten erzielte – genug für eine Goldmedaille bei der Internationalen Mathematik-Olympiade (IMO). Die Leistung wurde durch drei ehemalige IMO-Gewinner bewertet, die die auf natürliche Sprache verfassten Beweise des Modells unabhängig prüften und benoteten. Die Testbedingungen entsprachen nach Unternehmensangaben denen menschlicher Teilnehmer: zwei viereinhalbstündige Sitzungen, kein Internetzugang, keine Werkzeuge, kein Code – nur Text.

Nach Angaben von OpenAI wurde das Modell nicht speziell auf IMO-Aufgaben trainiert, sondern als generalistisches Reasoning-Modell entwickelt. Es basiert laut OpenAI-Forschern auf allgemeinen Fortschritten in Reinforcement Learning und nutzt umfangreiche Rechenressourcen während der Inferenzzeit. Der OpenAI-Forscher Alexander Wei betonte in einem X-Post, dass es sich nicht um einen aufgabenbezogenen Ansatz handle, sondern um ein Modell, das komplexe, mehrseitige Beweise autonom erzeugen könne. Womöglich handelt es sich auch um ein Multi-Agenten-System.

Stundenlanges Denken ohne Tools

Der Erfolg ist insbesondere deshalb bemerkenswert, weil das Modell oder die Modelle über viele Stunden hinweg konsistent argumentierten – ohne Zugriff auf symbolische Werkzeuge wie Code-Interpreter oder mathematische Hilfsmittel. Damit unterscheidet es sich grundlegend von anderen leistungsstarken Systemen wie DeepMinds AlphaProof, das auf hybride neurosymbolische Verfahren zurückgreift.

Anzeige
Anzeige

Die Fähigkeit, über mehrere Stunden hinweg konsistent zu beweisen, wurde bis vor kurzem für ein Sprachmodell für nur sehr schwer erreichbar gehalten. Noch im Juni erklärte der Mathematiker Terence Tao im Podcast mit Lex Fridman, dass die IMO zu schwierig sei, um von KI in Echtzeit gelöst zu werden: „Man kann nicht genug Menschen einstellen, um diese zu bewerten,“ sagte Tao über die aufwendige Verifikation langer Beweise beim Reinforcement-Learning-Training.

Umso überraschender ist OpenAIs Ergebnis – auch für die Prognosemärkte: Zuletzt lag die Wahrscheinlichkeit für eine KI-Goldmedaille bis Ende 2025 zuletzt unter 20 Prozent, auch wenn die Bedingungen für diese Prognose etwas strikter sind.

Doch die gingen womöglich – wie auch Tao – davon aus, dass ein Reasoning-Modell wie o3 explizit darauf trainiert werden müsse, solche Beweise zu führen, und dass es für jeden Zwischenschritt dementsprechendes Experten-Feedback erhalten müsse. OpenAI scheint dagegen eine allgemeinere Methode gefunden zu haben, um dieses Verhalten hervorzurufen. Das betont auch Wei. Seiner Meinung nach handelt es sich nicht um ein aufgabenbezogenes, sondern um ein generalistisches Reasoning-Modell.

Laut OpenAI-Forscher Jerry Tworek soll das eingesetzte Reinforcement-Learning-System außerdem auch für das Training von ChatGPT Agent und dem Modell, das zuvor bei den Heuristics World Finals von AtCoder bereits den zweiten Platz belegt hat, zum Einsatz gekommen sein. Das Modell hatte knapp zehn Stunden ununterbrochen Code generiert.

Kritik an Intransparenz

Wie gewohnt, gibt es auch kritische Stimmen. KI-Kritiker Gary Marcus lobte die Leistung als „genuin beeindruckend“, stellte aber in einem X-Post eine Reihe offener Fragen: Wie unterscheidet sich das Modell architektonisch von Vorgängern? Wie hoch waren die Kosten pro Aufgabe? Wurde mit vorverarbeiteten Daten gearbeitet oder mit rohem Text? Und wie übertragbar ist die Leistung auf andere wissenschaftliche Bereiche? Wie mittlerweile von OpenAI gewohnt, sind all diese Details bisher Verschlusssache.

Empfehlung

OpenAI hatte bereits Kritik für mangelnde Transparenz beim Benchmark-Test ARC-AGI erhalten. Wie eine Analyse der ARC Prize Foundation zeigte, schnitt das finale o3-Modell deutlich schlechter ab als die zuvor getestete Vorschauversion. Auch die Finanzierung des als unabhängig geltenden FrontierMath-Benchmarks durch OpenAI wurde erst bekannt, nachdem dort ein Rekordergebnis erzielt wurde.

Ein skalierbarer Reasoning-Ansatz?

In seinem Essay „How o3 and Grok 4 accidentally vindicated neurosymbolic AI“ betonte Marcus kürzlich, dass moderne KI-Modelle zunehmend auf symbolische Werkzeuge wie Code-Interpreter zurückgreifen – ein Trend, der seiner Ansicht nach die Grenzen reiner Sprachmodelle überwinden soll.

OpenAIs IMO-System hingegen arbeitete rein textbasiert, ohne Tools – was, sofern das Ergebnis standhält, eine Ausnahme darstellen würde. Sollte sich die Generalisierungsfähigkeit bestätigen, könnte dies Marcus' These zumindest teilweise infrage stellen. Gleichzeitig bleibt sein zentraler Kritikpunkt bestehen: Ohne methodische Offenheit bleiben solche Leistungen schwer einzuordnen.

Dennoch scheint am Ende ein Sprachmodell übrigzubleiben, das stundenlang konsistent argumentiert – ohne Tools. Das war bis vor Kurzem kaum vorstellbar. Die Skalierung des Reasoning-Ansatzes scheint vorerst zu funktionieren. Der nächste Schritt wären laut OpenAI mehrere Tage lange Reasoning-Sessions.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das OpenAI-Modell demonstriert, dass KI mittlerweile in der Lage ist, über viele Stunden hinweg komplexe mathematische Beweise rein textbasiert zu erzeugen – ohne symbolische Hilfsmittel oder spezifisches Training für Olympiaden.
  • Die Ergebnisse legen nahe, dass Fortschritte im Reinforcement Learning und skalierbare Reasoning-Ansätze es KI-Systemen ermöglichen könnten, Aufgaben zu lösen, die bisher als kaum erreichbar galten.
  • Da OpenAI zentrale methodische Details wie Architektur, Kosten und Trainingsdaten nicht offenlegt, bleibt offen, wie belastbar und übertragbar diese Leistung tatsächlich ist.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!