Inhalt
summary Zusammenfassung

Ein Stanford-Professor testet seit einem Jahr dasselbe ungelöste Mathematikproblem an OpenAIs Modellen – und dokumentiert dabei ungewollt den Fortschritt zur besseren Selbsteinschätzung.

Anzeige

"Er hat mir vor etwa einem Jahr geschrieben, bevor wir o1 angekündigt haben, und meinte: 'Hey, willst du bei der Lösung schwieriger Mathematikprobleme zusammenarbeiten?'", erzählt Noam Brown von OpenAI über einen Stanford-Mathematikprofessor. "Bei jedem Release unserer Reasoning-Modelle schreibt er mir eine Nachricht und fragt: 'Kann es dieses Problem jetzt lösen?' Ich gebe es in das Modell ein und schicke ihm die Antwort zurück, und er sagt: 'Ja, das ist falsch.'"

Doch nach dem jüngsten Durchbruch bei der Internationalen Mathematik-Olympiade zeigt sich ein wichtiger Wandel: "Er hat mir diesmal wieder eine Nachricht mit demselben Problem geschickt und gefragt: 'Hey, kann es das jetzt lösen?' Es kann es immer noch nicht lösen, aber diesmal erkennt es wenigstens, dass es das Problem nicht lösen kann." Auch bei Problem 6 der diesjährigen IMO – dem härtesten Problem – sagte das Modell "keine Antwort", statt zu halluzinieren.

Diese ungewollte Langzeitstudie dokumentiert einen Fortschritt, der in den klassischen Benchmarks bisher nicht sichtbar wird: Die Modelle lernen zunehmend, ihre eigenen Wissensgrenzen einzuschätzen, anstatt überzeugende, aber falsche Antworten zu produzieren.

Anzeige
Anzeige

So interpretiert auch ein spanisches Forschungsteam die viel diskutierten Ergebnisse von Apples Reasoning-Studie. Auch dort brachen Reasoning-Modelle wie o3 die Ausführung von Ausgaben frühzeitig ab. Während die Apple-Forscher dies als bloßes Scheitern werteten, sieht das spanische Forschungsteam darin einen Hinweis auf eine gelernte Strategie. Die Modelle erkennen demnach, dass sie gegen eine Wand laufen, und brechen ab.

Bis wir endgültig vor KI-Bullshit sicher sind, dürfte aber noch eine Weile dauern. OpenAI plant, das IMO-Modell testweise Mathematikern zur Verfügung zu stellen. Die grundlegenden Verbesserungen, die zu diesem Fortschritt geführt haben, sind jedoch erst in einigen Monaten in kommerziellen Modellen zu erwarten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Ein Stanford-Mathematikprofessor testet seit einem Jahr dasselbe ungelöste Problem an OpenAIs KI-Modellen. Während frühere Versionen falsche Antworten lieferten, erkennt das neueste Modell erstmals, dass es das Problem nicht lösen kann, anstatt zu halluzinieren.
  • Diese Entwicklung zeigt sich auch bei der Internationalen Mathematik-Olympiade, wo das Modell bei dem schwierigsten Problem "keine Antwort" angab, statt eine überzeugende aber falsche Lösung zu erfinden.
  • OpenAI plant, das IMO-Modell testweise Mathematikern zur Verfügung zu stellen. Die grundlegenden Verbesserungen sollen jedoch erst in einigen Monaten in kommerziellen Modellen verfügbar sein.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!