OpenAIs o3 ist weniger AGI als ursprünglich angekündigt

Eine Analyse der ARC Prize Foundation zeigt, dass OpenAIs neues o3-Modell bei strengen Reasoning-Tests deutlich schlechter abschneidet als die zuvor getestete o3-Preview-Version.

Die ARC Prize Foundation versteht sich als Non-Profit-Organisation, die mit offenen Benchmarks wie ARC-AGI die Lücke zwischen menschlichen Fähigkeiten und dem Stand der Künstlichen Intelligenz aufzeigen will. Jede Modell-Evaluation soll dabei das Verständnis der Community für den aktuellen Stand der Technik erweitern.

Das Benchmark-Design konzentriert sich bewusst auf Aufgaben, die symbolisches Denken, mehrstufige Komposition und kontextabhängige Regelanwendung erfordern – Fähigkeiten, die Menschen oft ohne spezielles Training mitbringen, die aktuelle KI-Systeme aber nur eingeschränkt beherrschen.

Die Tests wurden auf den Reasoning-Stufen "low", "medium" und "high" durchgeführt. Diese Stufen steuern die Tiefe der Modell-Überlegungen: "low" bevorzugt Geschwindigkeit und minimalen Token-Verbrauch, während "high" zu umfassenderen Denkprozessen anregen soll. Insgesamt wurden für die Analyse zwei Modelle (o3 und o4-mini) auf drei Reasoning-Stufen über 740 Aufgaben aus ARC-AGI-1 und ARC-AGI-2 getestet, was zu 4.400 Datenpunkten führte.

Mehr Leistung für weniger Geld: o3 übertrifft o1

Laut der Analyse erreichte das o3-Modell 41 Prozent (low compute) und 53 Prozent (medium compute) im AGI-Benchmark-Test ARC-AGI-1. Auf dem schwierigeren ARC-AGI-2-Set blieb die Leistung jedoch unter drei Prozent.

Das kleinere o4-mini-Modell erzielte 21 Prozent (low compute) und 42 Prozent (medium compute) auf ARC-AGI-1, lag aber ebenfalls bei unter drei Prozent auf ARC-AGI-2.

Streudiagramm: ARC-AGI Leaderboard zeigt KI-Modell-Scores vs. Kosten pro Aufgabe, inkl. GPT- und O-Modelle. — OpenAIs o3-Modell übertrifft das im Herbst 2024 vorgestellte o1-Modell um rund 20 Prozent im AGI-1-Benchmark. Es liegtaber weit hinter den Ergebnissen von o3-preview, das im Dezember 2024 vorgestellt wurde. Die Grafik zeigt das Preis-Leistungs-Verhältnis. | Bild: ARC Prize Foundation

Bei Tests mit erhöhtem Reasoning-Aufwand ("high" compute) konnten beide Modelle viele Aufgaben nicht abschließen. Die Analyse deutete zudem darauf hin, dass die Modelle bevorzugt Aufgaben beantworteten, die sie leichter lösen konnten, während schwierige Aufgaben häufiger unbeantwortet blieben. Eine Auswertung nur der erfolgreichen Antworten hätte daher das tatsächliche Leistungsniveau verzerrt. Deswegen wurden diese Teilergebnisse nicht für die offiziellen Leaderboards verwendet.

Modell	Reasoning-Einstellung	Semi Private Eval V1	Semi Private Eval V2	Kosten pro Aufgabe (V2)
o3	Low	41 %	1,9 %	1,22 US-Dollar
o3	Medium	53 %	2,9 %	2,52 US-Dollar
o3	High	—	—	—
o4-mini	Low	21 %	1,6 %	0,05 US-Dollar
o4-mini	Medium	42 %	2,3 %	0,23 US-Dollar
o4-mini	High	—	—	—

Zudem zeigte sich, dass ein höherer Reasoning-Aufwand nicht automatisch zu besseren Ergebnissen führt, sondern oft nur zu höheren Kosten. Speziell o3-high verbraucht deutlich mehr Tokens, ohne bei einfacheren Aufgaben einen nennenswerten Genauigkeitsgewinn zu erzielen. Dies wirft Fragen nach der Skalierbarkeit des aktuellen Reasoning-Ansatzes auf.

Streudiagramm: Vergleich der Token-Nutzung von O3-medium vs. O3-high auf ARCv1, farblich nach Korrektheit kodiert. — Der Vergleich des Tokenverbrauchs zwischen o3-medium und o3-high auf ARCv1 zeigt, dass eine höhere Leistung oft mit höheren Kosten verbunden ist. Blaue Punkte oberhalb der Linie markieren Aufgaben, bei denen o3-high mehr Token für das gleiche Ergebnis benötigt. | Bild: ARC Prize Foundation

Für kostenbewusste Anwendungen empfiehlt die ARC Prize Foundation daher, standardmäßig o3-medium zu verwenden. Die Einstellung "high-reasoning" sei nur dann sinnvoll, wenn es auf maximale Genauigkeit ankommt und die Kosten eine untergeordnete Rolle spielen.

Empfehlung

KI-Forschung

Präzision und Scaling Laws: KI-Forscher sieht "perfekten Sturm" für das Ende des Skalierens

Die Stiftung betont generell, dass mit zunehmender Leistungsfähigkeit von KI-Modellen die Effizienz – also wie schnell, zu welchen Kosten und mit wie wenigen Tokens Probleme gelöst werden – zum entscheidenden Unterscheidungsmerkmal wird.

Besonders hervorzuheben sei hier die Effizienz von o4-mini: Es erreicht 21 Prozent Genauigkeit auf ARC-AGI-1 bei nur etwa fünf Cent Kosten pro Aufgabe. Zum Vergleich: Ältere Modelle wie o1-pro benötigen für ähnliche Leistungen etwa elf Dollar pro Aufgabe.

OpenAIs o3 ist weniger AGI als o3-preview

Die aktuelle o3-Version unterscheidet sich deutlich von der o3-Preview-Version, die im Dezember 2024 getestet wurde. Während o3-Preview damals im Textmodus beeindruckende 76 Prozent (low compute) und 88 Prozent (high compute) auf ARC-AGI-1 erreichte, liefert das nun veröffentlichte o3 mit 41 Prozent (low) bzw. 53 Prozent (medium) deutlich schwächere Ergebnisse.

OpenAI bestätigte gegenüber ARC, dass das veröffentlichte o3-Produktionsmodell mehrere Unterschiede aufweist: Es hat eine andere, kleinere Architektur als o3-preview, arbeitet multimodal (Text und Bild) und verfügt über geringere Compute-Ressourcen als die im Dezember getestete Preview-Version.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Bezüglich der Trainingsdaten gibt OpenAI an, dass das Training von o3-preview 75 Prozent des ARC-AGI-1-Datensatzes umfasste. Das veröffentlichte o3-Modell hingegen wurde laut OpenAI nicht direkt auf ARC-AGI-Daten trainiert, auch nicht auf dem Trainingsdatensatz. Eine indirekte Exposition durch die öffentliche Verfügbarkeit des Benchmarks sei jedoch möglich.

Eine weitere Änderung: Das veröffentlichte o3-Modell wurde für Chat- und Produktanwendungen verfeinert, was laut ARC Prize sowohl Stärken als auch Schwächen bei der Anwendung auf den ARC-AGI-Benchmark mit sich bringt. Das zeigt, dass Benchmark-Ergebnisse, insbesondere bei unveröffentlichten KI-Modellen, stets kritisch betrachtet werden sollten.

Fortschritt mit Einschränkungen

Das Modell o3-medium ist derzeit das leistungsstärkste öffentlich getestete Modell der ARC Prize Foundation auf ARC-AGI-1 und verdoppelt die typische Leistung früherer Chain-of-Thought-Modelle.

Dennoch bleibt insbesondere der kürzlich vorgestellte Benchmark ARC-AGI-2 für beide neuen Modelle weitgehend unlösbar. Während Menschen ohne spezielles Training durchschnittlich 60 Prozent der Aufgaben lösen, erreicht das stärkste Reasoning-Modell von OpenAI derzeit nur etwa drei Prozent. Das zeigt, dass trotz des technologischen Fortschritts nach wie vor eine große Lücke zwischen der Problemlösungsfähigkeit von Menschen und Maschinen klafft.

Eine kürzlich veröffentlichte Analyse deutet zudem darauf hin, dass sogenannte Reasoning-Modelle wie o3 vermutlich keine neuen Fähigkeiten besitzen, die über die ihrer zugrundeliegenden Basis-Sprachmodelle hinausgehen. Vielmehr sind sie darauf optimiert, bei bestimmten Aufgaben schneller zur richtigen Lösung zu gelangen – insbesondere bei Aufgaben, auf die sie durch gezieltes Reinforcement Learning trainiert wurden.

OpenAIs o3 ist weniger AGI als ursprünglich angekündigt

Mehr Leistung für weniger Geld: o3 übertrifft o1

Präzision und Scaling Laws: KI-Forscher sieht "perfekten Sturm" für das Ende des Skalierens

OpenAIs o3 ist weniger AGI als o3-preview

Fortschritt mit Einschränkungen

KI-Forscher starten Million-Dollar-Wettbewerb für Entwicklung von adaptiver Künstlicher Intelligenz

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

OpenAIs o3 ist weniger AGI als ursprünglich angekündigt

Mehr Leistung für weniger Geld: o3 übertrifft o1

Präzision und Scaling Laws: KI-Forscher sieht "perfekten Sturm" für das Ende des Skalierens

OpenAIs o3 ist weniger AGI als o3-preview

Fortschritt mit Einschränkungen

KI-Forscher starten Million-Dollar-Wettbewerb für Entwicklung von adaptiver Künstlicher Intelligenz