Ein KI-System von OpenAI hat bei der Internationalen Informatik-Olympiade 2025 eine Goldmedaille erzielt.
Ein von OpenAI entwickeltes Logik-System hat eine Punktzahl erreicht, die für eine Goldmedaille bei der Internationalen Informatik-Olympiade (IOI) 2025 ausreicht. Wie die OpenAI-Mitarbeiterin Sheryl Hsu bei X mitteilte, platzierte sich das System an erster Stelle unter den KI-Teilnehmern. Die IOI gilt als einer der prestigeträchtigsten Programmierwettbewerbe für Schüler weltweit.
Die Leistung des Systems war so hoch, dass es nur von fünf der 330 menschlichen Teilnehmer übertroffen wurde, was einem sechsten Platz im Gesamtfeld entspricht. Laut Hsu nahm die KI offiziell am Online-Track des Wettbewerbs teil und hielt sich an die gleichen Regeln wie die Menschen, einschließlich eines Zeitlimits von fünf Stunden und einer Begrenzung auf 50 Einreichungen.
Allzweck-KI statt Spezialtraining
Laut den beteiligten Forschern ist der entscheidende Punkt des Erfolgs, dass kein Modell speziell für die IOI trainiert wurde. Stattdessen kam ein Ensemble aus allgemeinen Logikmodellen zum Einsatz. Laut dem OpenAI-Forscher Noam Brown ist die wichtigste Erkenntnis, dass das Kernmodell, das am besten abschneidet, dasselbe ist, das kürzlich eine Goldmedaille bei der Internationalen Mathematik-Olympiade (IMO) errang.
"Nach der IMO haben wir umfassende Auswertungen mit dem IMO-Goldmodell durchgeführt und festgestellt, dass es nicht nur im Bereich der wettbewerbsorientierten Mathematik, sondern auch in vielen anderen Bereichen, einschließlich des Programmierens, unser bestes Modell war", so Brown. Folglich wurde dasselbe Modell ohne Änderungen für die IOI eingesetzt.
Enormer Fortschritt in nur einem Jahr
Der diesjährige Erfolg markiert einen deutlichen Sprung nach vorn. Im Jahr 2024 verpasste ein OpenAI-System noch knapp eine Bronzemedaille und erreichte nur das 49. Perzentil. Damals wurde laut Hsu eine "deutlich stärker handgefertigte Teststrategie" angewendet. Wei fügte hinzu, dass damals ein speziell feingetunetes Modell mit einem aufwändigen technischen Gerüst ("Scaffold") eingesetzt wurde, das synthetische Testfälle und handentwickelte Merkmale umfasste.
Im Gegensatz dazu war das Gerüst in diesem Jahr laut Brown wesentlich einfacher. Es diente lediglich dazu, aus den von den allgemeinen Modellen generierten Vorschlägen mithilfe eines weiteren Modells und einer Heuristik die besten Lösungen für die Einreichung auszuwählen. Dieser Ansatz führte zu einem Sprung auf das 98. Perzentil. Brown zeigte sich optimistisch, dass "wir nächstes Jahr darauf vertrauen können, dass das Modell selbst besser ist als jedes Gerüst, das wir uns ausdenken könnten".