Inhalt
summary Zusammenfassung

Der neue KI-Benchmark ARC-AGI-2 legt die Messlatte für KI-Tests deutlich höher. Während Menschen die Aufgaben problemlos lösen können, scheitern selbst hoch entwickelte KI-Systeme wie OpenAI o3 deutlich.

Anzeige

François Chollet und sein Team haben mit ARC-AGI-2 eine neue Variante ihres Benchmarks veröffentlicht. Der Test folgt dem gleichen Format wie sein Vorgänger ARC-AGI-1, liefert aber nach Angaben des Teams ein deutlich stärkeres Signal für die tatsächliche Intelligenz eines Systems.

"Es ist ein KI-Benchmark, der die allgemeine fluide Intelligenz messen soll, nicht auswendig gelernte Fähigkeiten - eine Reihe von neuartigen Aufgaben, die Menschen leicht fallen, mit denen aktuelle KI aber zu kämpfen hat", erklärt Chollet auf X.

Der Schwerpunkt liegt dabei auf Fähigkeiten, die heutigen KI-Systemen noch fehlen: Symbolinterpretation, mehrstufiges Kompositionsdenken und kontextabhängige Regelanwendung.

Anzeige
Anzeige

Der Benchmark ist vollständig am Menschen kalibriert: In Tests mit 400 Personen in Live-Sitzungen wurden nur Aufgaben beibehalten, die von mehreren Personen zuverlässig gelöst werden können. Durchschnittliche Testpersonen erreichen ohne vorheriges Training 60 Prozent, während ein Panel von 10 Experten 100 Prozent erreicht.

Aktuelle KI-Modelle scheitern an ARC-AGI-2

Die Ergebnisse der ersten Tests mit ARC-AGI-2 sind ernüchternd: Selbst die fortschrittlichsten Systeme schneiden extrem schlecht ab. Reine Sprachmodelle wie GPT-4.5, Claude 3.7 Sonnet oder Gemini 2 erreichen null Prozent. Modelle mit einfachem Chain-of-Thought-Reasoning wie Claude 3.7 Sonnet Thinking, R1 oder o3-mini kommen auf magere null bis ein Prozent.

Ein Beispiel für eine Aufgabe aus dem ARC-AGI-2-Benchmark. | Bild: ARC Prize

Besonders bemerkenswert ist der Leistungsabfall des OpenAI-Modells o3-low, das beim Vorgänger ARC-AGI-1 noch beeindruckende 75,7 Prozent erreichte, bei ARC-AGI-2 aber auf etwa 4 Prozent abstürzt. Ähnlich dramatisch sieht es beim Gewinner des ARC Prize 2024, dem Team ARChitects, aus: Von 53,5 Prozent bei ARC-AGI-1 auf nur noch 3 Prozent bei ARC-AGI-2. "Im Gegensatz zu ARC-AGI-1 kann diese neue Version nicht einfach mit Brute Force gelöst werden", erklärt das Team. "Aktuelle Top-KI-Ansätze liegen zwischen 0 und 4 Prozent. Man kann diese Aufgaben nicht einfach durch Auswendiglernen lösen. Man braucht die Fähigkeit, Konzepte spontan zu rekombinieren - man braucht Adaption zur Testzeit."

Bild: ARC Prize

In einigen Fällen fehlen jedoch noch ausführliche Tests oder es handelt sich um Hochrechnungen, so dass die tatsächliche Leistung insbesondere von Modellen wie o3-high höher sein könnte.

Empfehlung

Effizienz wird zum entscheidenden Faktor

Eine wichtige Neuerung der ARC-AGI-2 ist die Einführung einer Effizienzmetrik. In Zukunft wird nicht nur die Problemlösungsfähigkeit bewertet, sondern auch die Effizienz, mit der diese Fähigkeit eingesetzt wird. Als erste Metrik wird der Kostenfaktor verwendet, da dieser einen direkten Vergleich zwischen menschlicher und KI-Leistung ermöglicht.

"Wir wissen, dass eine Brute-Force-Suche irgendwann ARC-AGI lösen könnte (mit unbegrenzten Ressourcen und unbegrenzter Zeit). Das wäre keine echte Intelligenz", so die ARC Prize Foundation. "Intelligenz bedeutet, die Lösung effizient zu finden, nicht erschöpfend." Der Grund dafür ist wahrscheinlich der Erfolg von o3 in seinem Vorgänger: Das Modell hatte den Benchmark fast gelöst, dafür aber auf extrem viele parallel generierte Lösungen gesetzt.

Während ein menschliches Expertenpanel 100 Prozent der Aufgaben zu Kosten von rund 17 Dollar pro Aufgabe löst, benötigt das o3-low-Modell von OpenAI für seine mageren vier Prozent rund 200 Dollar pro Aufgabe. Dies zeigt die enorme Effizienzlücke zwischen menschlicher und künstlicher Intelligenz.

ARC Prize 2025 mit einer Million Dollar Preisgeld startet diese Woche

Parallel zur Veröffentlichung von ARC-AGI-2 startet der ARC Prize 2025 Wettbewerb mit einem Gesamtpreisgeld von 1 Million Dollar. Der Hauptpreis in Höhe von 700.000 Dollar wird für das Erreichen von 85 Prozent auf dem privaten Evaluierungsset vergeben. Zusätzlich gibt es 125.000 Dollar an garantierten Fortschrittspreisen und weitere 175.000 Dollar an noch nicht angekündigten Preisen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Der Wettbewerb findet auf Kaggle statt und läuft von März bis November 2025. Im Gegensatz zum öffentlichen Leaderboard auf arcprize.org beschränken die Regeln von Kaggle die Teilnehmer auf etwa 50 Dollar Rechenleistung pro Einreichung und verbieten die Nutzung von Internet-APIs.

Der 2019 eingeführte ARC-AGI-1-Benchmark galt lange als einer der härtesten Tests für KI - und war wahrscheinlich der einzige Benchmark, der ein starkes Signal für den wohl wichtigsten Paradigmenwechsel in der KI der letzten Jahre lieferte: das Aufkommen von Reasoning-Modellen. Trotz des Namens sind jedoch weder die erste noch die neue Variante des Benchmarks ein Indikator für das Erreichen von AGI - beide Benchmarks können nach Aussage des Teams, das sie entwickelt hat, auch ohne gelöst werden.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • François Chollet und sein Team haben mit ARC-AGI-2 einen neuen KI-Benchmark veröffentlicht, der allgemeine fluide Intelligenz misst und bei dem selbst fortschrittlichste KI-Systeme wie OpenAI o3 mit nur 4 Prozent Erfolgsrate scheitern, während Menschen durchschnittlich 60 Prozent erreichen.
  • Der Benchmark konzentriert sich auf Fähigkeiten wie Symbolinterpretation, mehrstufiges Kompositionsdenken und kontextabhängige Regelanwendung - Bereiche, in denen aktuelle KI-Systeme noch große Defizite aufweisen.
  • Mit dem ARC Prize 2025 startet ein Wettbewerb mit 1 Million Dollar Preisgeld, wobei erstmals auch die Effizienz der Lösungen bewertet wird, da ein menschliches Expertenpanel 100 Prozent der Aufgaben für etwa 17 Dollar pro Aufgabe löst, während KI-Modelle für deutlich schlechtere Ergebnisse ein Vielfaches der Kosten verursachen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!