Inhalt
summary Zusammenfassung

ARC-AGI-3 soll messen, wie gut KI-Systeme unbekannte Aufgaben verstehen und lösen können. Menschen kommen mit den Tests problemlos zurecht, die KI scheitert bisher vollständig.

Anzeige

Der KI-Forscher François Chollet und sein Team haben mit ARC-AGI-3 eine neue Version ihres Benchmarks zur Messung allgemeiner Intelligenz vorgestellt.

Laut Chollet soll ARC-AGI-3 die Fähigkeit von KI-Systemen messen, in völlig unbekannten Situationen selbstständig zu lernen – ohne Vorwissen, ohne Anleitung. Die Aufgaben basieren ausschließlich auf sogenannten "Core Knowledge Priors", also grundlegenden kognitiven Fähigkeiten wie Objektpermanenz oder Kausalität. Sprachliches Wissen, Trivia oder kulturelle Symbole sind ausgeschlossen.

Die "Developer Preview" enthält drei interaktive Testspiele, die laut den Entwicklern von Menschen in wenigen Minuten gelöst werden können – aktuelle KI-Systeme erzielen jedoch durchweg null Punkte. OpenAI-Forscher Zhiqing Sun behauptet allerdings auf X, dass der neue ChatGPT Agent das erste Spiel bereits lösen kann.

Anzeige
Anzeige
Bild: Screenshot via X

Interaktive Spiele statt statischer Benchmarks

Die zentrale Neuerung gegenüber früheren ARC-Versionen ist der interaktive Aufbau: Statt statischer Aufgaben enthält ARC-AGI-3 neuartige Minispiele in einer sogenannten Grid-Welt. Um zu gewinnen, müssen KI-Agenten die Spielmechanik selbst entdecken, Ziele erkennen und durch Versuch und Irrtum lernen, wie sie diese erreichen können.

Die Entwickler vergleichen dieses Vorgehen mit menschlichem Lernen: Menschen erschließen sich neue Umgebungen durch Exploration, Planung und Anpassung – Fähigkeiten, die bisherige KI-Systeme kaum zeigen. "Solange wir diese Lücke haben, haben wir keine allgemeine KI", heißt es in der Projektbeschreibung auf arcprize.org.

Begleitend zur Vorschauversion startet ein Sprint-Wettbewerb mit einem Preisgeld von 10.000 US-Dollar, gesponsert von HuggingFace. Innerhalb von vier Wochen sollen Teilnehmende den bestperformenden Agenten entwickeln und einreichen. Die Teilnahme erfolgt über die bereitgestellte API.

Der vollständige Benchmark soll bis Anfang 2026 rund hundert verschiedene Spiele umfassen, aufgeteilt in öffentliche und private Testsets. Weitere Informationen zum Benchmark, zur Teilnahme und zur API finden sich auf der offiziellen Projektseite arcprize.org.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Der KI-Forscher François Chollet und sein Team stellen mit ARC-AGI-3 einen neuen Benchmark vor, der testen soll, wie gut KI-Systeme gänzlich unbekannte Aufgaben ohne Vorwissen oder Anleitung lösen können.
  • Die zentrale Neuerung sind interaktive Minispiele, bei denen KI-Agenten Spielmechaniken selbst herausfinden und Ziele durch Versuch und Irrtum erreichen müssen – ein Ansatz, der grundlegende kognitive Fähigkeiten wie Objektpermanenz und Kausalität misst.
  • Menschen bewältigen die interaktiven Testspiele in wenigen Minuten, während aktuelle KIs bislang keine Punkte erzielen. Zum Start gibt es eine Developer-Preview mit drei Spielen und einen Wettbewerb mit 10.000 US-Dollar Preisgeld.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!