OpenAI-Forscher: Warum Mathematik der wichtigste Test auf dem Weg zur AGI ist
KI-Modelle haben in nur zwei Jahren den Sprung von Grundschulrechnungen zu Olympiade-Niveau und Forschungsmathematik geschafft. OpenAI-Forscher Sebastian Bubeck und Ernest Ryu erklären im OpenAI-Podcast, warum gerade Mathematik der zentrale Prüfstein auf dem Weg zur allgemeinen künstlichen Intelligenz ist.
Vor zwei Jahren existierten noch keine Reasoning-Modelle, vor vier Jahren beeindruckte Googles Minerva-Modell Bubeck damit, eine Linie durch Punkte im Koordinatensystem zu legen. Heute, so Bubeck im Gespräch mit Andrew Mayne, helfen die Systeme Fields-Medaillen-Trägern in ihrer täglichen Arbeit. Bei einer Konferenz vor anderthalb Jahren hielten 80 Prozent der anwesenden Mathematiker es noch für ausgeschlossen, dass skalierte LLMs offene Forschungsprobleme lösen könnten, so Bubeck.
Ernest Ryu, ehemaliger UCLA-Mathematikprofessor, schildert, wie er ein 42 Jahre altes offenes Problem zur Nesterov-Methode in der Optimierungstheorie mit ChatGPT in zwölf Stunden über drei Abende löste. Ohne KI hatte er zuvor mehr als 40 Stunden erfolglos investiert. Ryu agierte dabei als Verifizierer, der Fehler korrigierte und die Konversation in vielversprechende Richtungen lenkte.
Warum Mathematik der Prüfstein für AGI ist
Mathematik ist laut Bubeck nicht zufällig der Maßstab für den Fortschritt in Richtung AGI, sondern aus einem inhaltlichen Grund: Sie erzwingt genau jene Eigenschaft, die ein allgemein intelligentes System haben muss. Mathematische Beweise erfordern langes, konsistentes Denken über Stunden, Tage oder Jahre, und ein einziger Fehler in der Kette zerstört die gesamte Argumentation, egal wie korrekt der Rest ist. Wer das aushält, muss in der Lage sein, eigene Fehler zu erkennen und zu korrigieren.
Genau das wollen die Forscher aus dem Mathematiktraining auf andere Domänen übertragen, von Biologie bis Materialwissenschaft. Bubeck zieht die Parallele zum menschlichen Bildungssystem: Auch Menschen werden in Mathematik geschult, nicht weil sie später Beweise führen sollen, sondern weil das Fach logisches Denken erzwingt.
Hinzu kommen praktische Vorteile als Benchmark: Aufgaben sind eindeutig formuliert, Antworten überprüfbar, und niemand streitet darüber, ob ein Resultat korrekt ist. Bubeck führt das Konzept der "AGI-Zeit" ein: Vor zwei Jahren konnten Modelle das Denken eines Schülers über Minuten simulieren, heute liegen sie bei Tagen bis einer Woche. Das nächste Ziel seien Wochen und Monate.
OpenAIs Trainingsmethoden seien dabei nicht mathematikspezifisch, sondern allgemein, weshalb der Fortschritt in anderen Wissenschaften zwangsläufig folgen werde. Die Forscher arbeiten an einem "automatisierten Forscher", der autonom über lange Zeiträume hinweg Probleme bearbeitet.
Erdős-Probleme und der Streit um die Deutung
Im Gespräch sprechen die beiden auch über die Erdős-Probleme, eine Sammlung offener Fragen des verstorbenen ungarischen Mathematikers. Dort fanden interne Modelle laut Bubeck zunächst durch tiefe Literaturrecherche Lösungen für zehn als offen markierte Probleme. Bubecks irreführender Tweet darüber führte zu einer öffentlichen Auseinandersetzung mit Google-Chef Demis Hassabis, weil viele die Aussage als Behauptung neuer Beweise missverstanden. Inzwischen, so Bubeck, hätten ChatGPT und interne Modelle aber mehr als zehn tatsächlich neue, in Fachjournalen publizierbare Lösungen produziert.
Was vor kurzem noch also noch als unrealistische Behauptung galt, sei nun Realität und beschleunige sich weiter. Bubeck sieht darin einen Beleg, dass die Modelle den Schritt von der Rekombination bekannten Wissens zur Erzeugung neuer Mathematik vollziehen, auch wenn die philosophische Frage offen bleibe, ob wissenschaftlicher Fortschritt überhaupt mehr ist als geschickte Rekombination plus etwas Reasoning.
Risiken: Geistige Atrophie und Pseudo-Beweise
Beide Forscher warnen aber auch vor einem oberflächlichen Umgang mit den Werkzeugen. Expertise sei wertvoller denn je, weil nur trainierte Mathematiker die Modelle produktiv nutzen könnten. Nicht-Mathematiker, die in sozialen Medien lange KI-generierte Beweise präsentierten, lägen meist falsch. Ryu sieht Parallelen im Programmieren, wo eine Generation den Umgang mit Debuggern verlerne.
Aussagen, man brauche keine Wissenschaftler mehr, hält Bubeck daher für gefährlich. Akademische Institutionen müssten ihre Rolle aktiv zurückgewinnen. Gleichzeitig könne KI die Verifikation von Beweisen beschleunigen, die bisher Jahre dauert, und auf Probleme in publizierten Arbeiten hinweisen.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenDer Rest ist für Abonnenten.
Jetzt Abo abschließen.
- Zugriff auf alle THE DECODER Artikel.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.