Artificial Analysis hat Version 4.0 seines Intelligence Index veröffentlicht, der die Leistung von KI-Modellen über verschiedene Benchmarks hinweg misst. OpenAIs GPT-5.2 mit höchster Reasoning-Stufe führt das Ranking an, gefolgt von Anthropics Claude Opus 4.5 und Googles Gemini 3 Pro.
Die Bewertung deckt vier gleichgewichtete Kategorien ab: Agenten, Programmierung, wissenschaftliches Denken und Allgemeines. Im Vergleich zur Vorgängerversion sind die Ergebnisse weniger gesättigt: Spitzenmodelle erreichen maximal 50 Punkte statt zuvor 73.

Der neue Index ersetzt drei bisherige Tests (AIME 2025, LiveCodeBench und MMLU-Pro) durch drei neue: AA-Omniscience prüft Wissen und Halluzinationen über 40 Themen, GDPval-AA testet KI-Modelle auf wirtschaftlich wertvolle Aufgaben in 44 Berufen und CritPt bewertet Physik-Forschungsaufgaben.
Alle Tests wurden laut Artificial Analysis unabhängig und mit standardisierter Methodik durchgeführt, die auf der Webseite von Artificial Analysis einsehbar ist.
