Anzeige
Skip to content

KI-Wettrennen mit Google: OpenAI veröffentlicht neue Modelle GPT-5.2

Image description
Sora prompted by THE DECODER

Kurz & Knapp

  • OpenAI veröffentlicht GPT-5.2 in drei Varianten (Instant, Thinking, Pro), das laut Unternehmen als erstes Modell bei Wissensarbeitsaufgaben auf Expertenniveau performt.
  • Die größten Verbesserungen zeigen sich beim abstrakten Reasoning: Im ARC-AGI-2-Benchmark springt GPT-5.2 Thinking auf 52,9 Prozent, während GPT-5.1 Thinking nur 17,6 Prozent erreichte.
  • Auch beim Coding steigt der Wert im SWE-bench Verified von 76,3 auf 80 Prozent. Die API-Preise steigen allerdings auch auf 1,75 US-Dollar pro Million Input-Tokens und 14 US-Dollar pro Million Output-Token.

Vor rund vier Wochen veröffentlichte OpenAI GPT-5.1 als Update für das im Sommer erschienene GPT-5. Jetzt erscheint bereits die nächste Version mit teils deutlichen Verbesserungen in Benchmarks.

Ist es Ironie oder ernst gemeint? OpenAI-CEO Sam Altman kommentiert die Veröffentlichung von GPT-5.2 mit den Worten: "Wir haben seit GPT-5.1 einen weiten Weg zurückgelegt."

Laut OpenAI handelt es sich bei GPT-5.2 um die "leistungsfähigste Modellserie für professionelle Wissensarbeit". Das Unternehmen veröffentlicht drei Varianten: GPT-5.2 Instant für schnelle Alltagsaufgaben, GPT-5.2 Thinking für komplexere Arbeit und GPT-5.2 Pro als Premium-Option für besonders anspruchsvolle Anfragen.

Das neue Modell zieht in vielen Benchmarks mit Googles Gemini 3 Pro gleich und überholt es teilweise deutlich, etwa im Coding-Benchmark SWE-Verified oder im abstrakten Reasoning-Benchmark ARC-AGI-2. Dass Google mit Gemini stark vorgelegt hat, dürfte OpenAI motiviert haben, schnell nachzulegen.

Anzeige
DEC_D_Incontent-1

GPT-5.2 soll erstmals Expertenniveau bei Wissensarbeit erreichen

Im GDPval-Benchmark, der Wissensarbeitsaufgaben über 44 Berufsgruppen testet und die wirtschaftliche Relevanz von KI-Modellen messen soll, erreicht GPT-5.2 Thinking laut OpenAI 70,9 Prozent - gegenüber 38,8 Prozent beim Vorgänger GPT-5 Thinking. Das ist ein Sprung von über 80 Prozent innerhalb eines Monats. Das Unternehmen bezeichnet es als erstes Modell, das bei gut spezifizierten Aufgaben auf oder über dem Niveau menschlicher Experten performt.

OpenAI beziffert die Effizienzgewinne: Das Modell soll Ergebnisse mit mehr als elffacher Geschwindigkeit und mit weniger als einem Prozent der Kosten von Branchenexperten liefern. Bei einem internen Benchmark für Investment-Banking-Aufgaben wie Finanzmodellen verbesserte sich der Durchschnittswert laut OpenAI von 59,1 auf 68,4 Prozent.

Auch beim Coding setzt GPT-5.2 Thinking neue Bestmarken. Im SWE-Bench Pro, der realistische Programmieraufgaben in vier Sprachen testet, erreicht das Modell 55,6 Prozent gegenüber 50,8 Prozent bei GPT-5.1 Thinking. Beim SWE-bench Verified steigt der Wert von 76,3 auf 80 Prozent.

Weniger Halluzinationen und besseres Langtext-Verständnis

Auch beim Coding setzt GPT-5.2 Thinking neue Bestmarken. Im SWE-Bench Pro, der realistische Programmieraufgaben in vier Sprachen testet, erreicht das Modell 55,6 Prozent gegenüber 50,8 Prozent bei GPT-5.1 Thinking. Beim SWE-bench Verified steigt der Wert von 76,3 auf 80 Prozent.

Anzeige
DEC_D_Incontent-2

OpenAI gibt zudem an, die Fehlerrate bei Antworten um relativ 30 Prozent reduziert zu haben. Bei einem Test mit anonymisierten ChatGPT-Anfragen sank der Anteil von Antworten mit mindestens einem Fehler von 8,8 Prozent (GPT-5.1 Thinking) auf 6,2 Prozent (GPT-5.2 Thinking). Bei diesem Test war das Reasoning auf Maximum gesetzt und ein Suchwerkzeug aktiviert. Die Fehler wurden von anderen Modellen geprüft, die dabei selbst Fehler machen können.

OpenAI weist darauf hin, dass die Fehlerrate auf Behauptungsebene deutlich niedriger ist als auf Antwortebene, da die meisten Antworten viele einzelne Behauptungen enthalten. Wie alle Modelle sei GPT-5.2 Thinking nicht perfekt, und Antworten müssten weiter überprüft werden.

Beim Verständnis langer Kontexte erreicht GPT-5.2 Thinking laut OpenAI als erstes Modell nahezu 100 Prozent Genauigkeit beim 4-Needle-MRCR-Test bis zu 256.000 Tokens. Bei diesem Test muss das Modell mehrere versteckte Informationen in einem langen Text finden und korrekt wiedergeben. Die Optimierung hier soll die Arbeit mit umfangreichen Dokumenten wie Verträgen, Forschungsarbeiten oder Transkripten verbessern.

Bei der Bildanalyse halbiert GPT-5.2 laut OpenAI die Fehlerraten. Im CharXiv-Reasoning-Benchmark, der Fragen zu wissenschaftlichen Diagrammen aus Forschungspapieren testet, steigt die Genauigkeit von 80,3 auf 88,7 Prozent. Beim ScreenSpot-Pro, der das Verständnis von Software-Benutzeroberflächen prüft, verbessert sich der Wert von 64,2 auf 86,3 Prozent.

Beim Tool-Calling, also der Fähigkeit, externe Werkzeuge zu nutzen, erreicht GPT-5.2 Thinking im Tau2-bench-Telecom 98,7 Prozent gegenüber 95,6 Prozent beim Vorgänger. Dieser Benchmark simuliert mehrstufige Kundenservice-Anfragen, bei denen das Modell verschiedene Tools koordinieren muss.

ARC-AGI-2 zeigt massiven Sprung

Beim ARC-AGI-2-Benchmark für abstraktes Reasoning zeigt sich der deutlichste Fortschritt: GPT-5.2 Thinking erreicht 52,9 Prozent, GPT-5.1 Thinking kam nur auf 17,6 Prozent. Gemini 3 Pro überraschte hier bei Veröffentlichung mit einem großen Sprung auf 31,1 Prozent.  GPT-5.2 Pro überschreitet zudem beim einfacheren ARC-AGI-1 die 90-Prozent-Marke und erreicht 90,5 Prozent – bei laut OpenAI rund 390-fach geringeren Kosten als der Vorgänger o3-preview von Ende 2024.

Beide Modelle verlieren allerdings recht deutlich gegen das KI-System von Poetiq, das eine Kombination aus fortschrittlichen Modellen wie Gemini 3 und GPT‑5.1 sowie Open‑Source‑Modellen verwendet.

Benchmark GPT-5.2 Thinking GPT-5.1 Thinking Gemini 3 Pro
GDPval (wins or ties) - Knowledge work tasks 70.9% 38.8% (GPT-5) -
SWE-Bench Pro (public) - Software engineering 55.6% 50.8% -
SWE-bench Verified - Software engineering 80.0% 76.3% 76.2%
GPQA Diamond (no tools) - Science questions 92.4% 88.1% 91.9%
CharXiv Reasoning (w/ Python) - Scientific figure questions 88.7% 80.3% 81.4%
AIME 2025 (no tools) - Competition math 100.0% 94.0% 95.0%
FrontierMath (Tier 1-3) - Advanced mathematics 40.3% 31.0% -
FrontierMath (Tier 4) - Advanced mathematics 14.6% 12.5% -
ARC-AGI-1 (Verified) - Abstract reasoning 86.2% 72.8% -
ARC-AGI-2 (Verified) - Abstract reasoning 52.9% 17.6% 31.1%
ScreenSpot-Pro - Screen understanding 86.3% 64.2% 72.7%
Video-MMMU - Knowledge from videos 85.9% 82.9% 87.6%
MMMLU - Multilingual Q&A 89.6% 89.5% 91.8%

Wie sich diese ganzen Benchmark-Resultate in der Praxis auswirken, bleibt freilich abzuwarten. Insbesondere das Vorgängermodell 5.1-Thinking musste sich eigentlich nicht hinter der Konkurrenz verstecken, insbesondere bei Reasoning-Aufgaben wie umfangreichen Analysen oder Internetrecherchen. Wenn 5.2 hier noch eine Steigerung gelingt, waren die Abgesänge auf OpenAI als Frontier-KI-Studio (natürlich) wieder einmal verfrüht.

OpenAI zieht die Preise an

GPT-5.2 ist in der API teurer als der Vorgänger: 1,75 US-Dollar pro Million Input-Tokens und 14 US-Dollar pro Million Output-Tokens, gegenüber 1,25 und 10 US-Dollar bei GPT-5.1. Gecachte Inputs erhalten 90 Prozent Rabatt. Die Pro-Variante kostet 21 beziehungsweise 168 US-Dollar pro Million Tokens.

Preislich positioniert sich OpenAI hier auf Augenhöhe mit Gemini 3 Pro, das bis 200 000 Token Kontextverarbeitung bei 2 US-Dollar pro Million Input-Token und 12 US-Dollar pro Million Output-Token liegt. Der Code-Konkurrent Anthropic bleibt teurer, das ähnlich leistungsfähige Opus-4.5-Modell liegt bei 5 US-Dollar pro Million Input-Tokens und 25 US-Dollar pro Million Output-Tokens.

Modell Input (pro 1M Tokens) Output (pro 1M Tokens)
GPT-5.2 $1,75 $14
GPT-5.2 Pro $21 $168
GPT-5.1 $1,25 $10
Gemini 3 Pro $2 $12
Claude Opus 4.5 $5 $25

OpenAI begründet die höheren Preise mit der größeren Leistungsfähigkeit. Durch die bessere Token-Effizienz sollen die Gesamtkosten für ein bestimmtes Qualitätsniveau dennoch sinken können.

In ChatGPT beginnt der Rollout für bezahlte Pläne (Plus, Pro, Go, Business, Enterprise). GPT-5.1 bleibt drei Monate als Legacy-Modell verfügbar. In der API gibt es keine Pläne zur baldigen Abschaltung von GPT-5.1, GPT-5 oder GPT-4.1.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: OpenAI