Der ARC Prize 2024 führte zu einem Sprung bei der Lösung des als besonders schwierig geltenden KI-Benchmarks. Neue Ansätze steigerten die Leistung deutlich, dennoch bleibt das Ziel von 85 Prozent in weiter Ferne.
Der KI-Benchmark ARC-AGI, der als wichtiger Gradmesser für künstliche allgemeine Intelligenz (AGI) gilt, hat 2024 einen deutlichen Leistungssprung erlebt. Laut dem technischen Bericht zum ARC Prize 2024 stieg die beste Leistung auf dem privaten Evaluierungsset von 33 auf 55,5 Prozent.
"Der Benchmark bleibt dennoch ungeschlagen - und das mit deutlichem Abstand", stellen die Autoren des Berichts fest. Bemerkenswert sei, dass bereits 2020 mit einfacher Brute-Force-Programmsuche theoretisch 49 Prozent erreichbar waren.
Der mit 600.000 Dollar dotierte Hauptpreis für das Erreichen von 85 Prozent wurde nicht vergeben. Das Team MindsAI erreichte zwar mit 55,5 Prozent die höchste Punktzahl, veröffentlichte seinen Code jedoch nicht und war damit nicht preis berechtigt.
Drei neue Ansätze dominieren den Wettbewerb
Dem Bericht zufolge kristallisierten sich drei Hauptansätze heraus: Die KI-gestützte Programmsynthese, das Test-Time Training (TTT) und die Kombination beider Methoden.
Bei der Programmsynthese nutzen die Systeme große Sprachmodelle, um Programm-Code zu generieren oder die Programmsuche zu steuern. Ryan Greenblatt erreichte damit 42 Prozent, indem er GPT-4o Tausende von Python-Programmen pro Aufgabe generieren und debuggen ließ.
Beim Test-Time Training wird ein vortrainiertes Sprachmodell zur Laufzeit auf die spezifische Aufgabe angepasst. Dieser von MindsAI eingeführte Ansatz wurde von vielen Teams aufgegriffen. Das Gewinnerteam "the ARChitects" erreichte damit 53,5 Prozent.
Die besten Ergebnisse erzielten Teams, die beide Ansätze kombinierten. Reine Programmsynthese oder reines Test-Time-Training erreichen jeweils nur etwa 40 Prozent. Ein Team des Massachusetts Institute of Technology zeigte kürzlich in einer Arbeit, wie ein Sprachmodell mit der Kombination im öffentlichen Teil des ARC-Prize sogar eine Genauigkeit von 61,9 Prozent erreichte. Aufgrund der vorgegebenen Einschränkungen in der erlaubten Rechenleistung im ARC-Prize, die das Team übertrifft, wurde der Ansatz noch nicht für das private Leaderboard getestet, das 100 nicht veröffentlichte Aufgaben erhält. Ebenso fehlen bisher Ergebnisse für das komplette o1-Modell von OpenAI inklusive Pro-Modus. Ein drastischer Leistungssprung ist jedoch nicht zu erwarten.
Neuer Benchmark für 2025 geplant
Die Organisatoren des ARC Prize kündigten zudem an, für 2025 einen neuen Benchmark namens ARC-AGI-2 zu entwickeln. Der aktuelle Datensatz aus dem Jahr 2019 habe mehrere Schwächen: Mit nur 100 Aufgaben im privaten Evaluierungsset sei er zu klein und durch tausende von Auswertungen bestehe die Gefahr der Überanpassung.
"Wir sind entschlossen, ARC als Leitstern auf dem Weg zur AGI zu etablieren", heißt es im Bericht. Der Wettbewerb habe bereits mindestens sieben gut finanzierte KI-Startups dazu gebracht, ihre Roadmaps zu ändern und sich auf die Lösung des Benchmarks zu konzentrieren. Auch größere Unternehmen hätten mittlerweile intern Bemühungen angestrebt, den Benchmark zu knacken.
Der ARC Prize soll jährlich fortgeführt werden, bis der Benchmark gelöst und eine öffentliche Referenzlösung verfügbar ist. Die Organisatoren gehen davon aus, dass das Team, das letztendlich AGI entwickeln wird, sich heute bereits mit ARC-AGI beschäftigt.
Bedeutung für die AGI-Entwicklung
Der ARC-AGI-Benchmark ist laut den Autoren des Berichts deshalb so bedeutsam, weil er die Fähigkeit testet, völlig neuartige Aufgaben zu lösen - im Gegensatz zu Aufgaben, auf die sich ein System vorbereiten kann. Klassische Deep-Learning-Ansätze, die auf dem Abrufen gespeicherter Muster basieren, scheitern daran.
Die Fortschritte im Jahr 2024 zeigen dem Bericht zufolge, dass algorithmische Verbesserungen eine große Wirkung haben können und massive Rechenleistung nicht unbedingt erforderlich ist. Dennoch: "Für die Entwicklung von AGI werden weiterhin neue Ideen benötigt. Die Tatsache, dass ARC-AGI trotz eines Hauptpreises von 600.000 $ und Hunderttausenden von Dollar an zusätzlichen Preisen fünf Monate intensiver Tests überlebt hat, ist ein starker Beweis dafür, dass es die Lösung noch nicht gibt".