Inhalt
newsletter Newsletter

Im anspruchsvollen KI-Test "ARC-AGI-2", mit dem die allgemeine Denkfähigkeit von Sprachmodellen getestet werden soll, erreicht GPT-5 laut Anbieter ARC Prize 9,9 Prozent bei Kosten von 0,73 US-Dollar pro Aufgabe.

Anzeige

Grok 4 (Thinking) schneidet hier mit rund 16 Prozent besser ab, allerdings bei deutlich höheren Kosten zwischen zwei und vier US-Dollar. Der ARC-AGI-Benchmark von ARC Prize ist eine Reihe von Tests, die speziell die deduktiven Fähigkeiten von KI-Systemen bewerten anstatt die Erinnerungsfähigkeiten. In den Ranglisten werden die Modelle anhand ihrer erreichten Punktzahl sowie der Kosten pro gelöster Aufgabe verglichen.

Bild: ARC-AGI

Auch im einfacheren ARC-AGI-1-Test liegt Grok 4 mit etwa 68 Prozent vor GPT-5 mit 65,7 Prozent. Hier liegen die Kosten bei rund einem US-Dollar für Grok 4 gegenüber 0,51 US-Dollar für GPT-5.

Bild: ARC Prize

Günstigere, aber schwächere Versionen sind ebenfalls verfügbar: GPT-5 Mini erreicht 54,3 Prozent auf AGI-1 (0,12 $) und 4,4 Prozent auf AGI-2 (0,20 $). GPT-5 Nano kommt auf 16,5 Prozent (0,03 $) bzw. 2,5 Prozent (0,03 $).

Anzeige
Anzeige

Erste, noch inoffizielle Tests laufen laut ARC Prize auch auf dem interaktiven Benchmark ARC-AGI-3, bei dem die KI in einer spielähnlichen Umgebung durch Versuch und Irrtum Aufgaben lösen muss. Menschen kommen mit den Tests problemlos zurecht, die meisten KI-Agenten scheitern an den visuellen Rätselspielen.

Das Geheimnis um o3-preview

Bei der Vorstellung von GPT-5 erwähnte OpenAI den ARC Prize nicht weiter, der bei früheren Modellvorstellungen eine große Rolle einnahm: Auffällig ist, dass beim Test ARC-AGI 1 noch immer das im Dezember 2024 vorgestellte o3-preview-Modell mit fast 80 Prozent mit deutlichem Abstand am besten abschneidet – allerdings auch zu erheblich höheren Kosten als alle anderen Modelle.

OpenAI sah sich angeblich gezwungen, o3-preview für die später veröffentlichte Chat-Version deutlich zu beschneiden, thematisierte dies jedoch bislang nicht. Der ARC Prize bestätigte die schlechteren Ergebnisse für die veröffentlichte o3-Version Ende April.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!