Anzeige
Skip to content

OpenAIs neues Code-Modell GPT-5.1-Codex-Max soll länger als einen Tag an einer Aufgabe arbeiten

Image description
OpenAI

Kurz & Knapp

  • OpenAI veröffentlicht mit GPT-5.1-Codex-Max ein neues KI-Modell für Softwareentwicklung, das speziell für langwierige Aufgaben konzipiert ist.
  • Im Coding-Benchmark "SWE-Bench Verified" übertrifft es mit 77,9 Prozent die Konkurrenz von Anthropic und Google relativ deutlich.
  • Im Vergleich zum Vorgänger arbeitet die neue Version bis zu 42 Prozent schneller und effizienter. Das Modell ist ab sofort in Codex verfügbar.

OpenAI aktualisiert seine Codex-Umgebung mit GPT-5.1-Codex-Max. Das neue Modell soll durch ein neues Verfahren effizienter mit extrem großen Kontextmengen umgehen und komplexe Software-Engineering-Aufgaben über lange Zeiträume lösen können.

OpenAI hat mit GPT-5.1-Codex-Max sein neuestes "agentisches" Coding-Modell veröffentlicht. Es ist laut dem Unternehmen speziell für "lang laufende, detaillierte Software-Engineering-Aufgaben" konzipiert und ersetzt ab sofort das bisherige Modell GPT-5.1-Codex als Standard in allen Codex-Oberflächen. OpenAI positioniert es explizit für agentische Coding-Workflows.

Bei dem Coding-Benchmark "SWE-Bench Verified" soll GPT-5.1-Codex-Max einen Bestwert von 77,9 Prozent erreichen und damit vor Anthropics und Googles gerade erst veröffentlichtem Gemini 3 liegen. Im internen Benchmark "SWE-Lancer IC SWE" steigerte sich das Modell laut Blogpost von 66,3 Prozent (Vorgängerversion) auf 79,9 Prozent.

GPT‑5.1-Codex (high) GPT‑5.1-Codex-Max (xhigh)
SWE‑Bench Verified (n=500) 73.7% 77.9%
SWE‑Lancer IC SWE 66.3% 79.9%
TerminalBench 2.0 52.8% 58.1%

Im Vergleich zum Vorgänger GPT-5.1-Codex verbrauche es bei gleicher Leistung 30 Prozent weniger sogenannte "Thinking-Tokens". Zudem arbeite das Modell bei realen Aufgaben zwischen 27 und 42 Prozent schneller. Für Aufgaben, bei denen die Latenz keine Rolle spielt, führt OpenAI einen neuen "Extra High"-Reasoning-Modus ein, der für bessere Ergebnisse noch länger "nachdenkt".

Anzeige
DEC_D_Incontent-1

Laut OpenAI ist GPT-5.1-Codex-Max auch das erste Modell, das spezifisch für die effektive Arbeit in Windows-Umgebungen trainiert wurde. Dies soll die Zusammenarbeit in der Codex CLI (Command Line Interface) verbessern. Intern soll das angeblich Wirkung zeigen: Laut OpenAI nutzen 95 Prozent der eigenen Ingenieure Codex wöchentlich und veröffentlichen seit der Einführung etwa 70 Prozent mehr Pull Requests.

Der Zugang ist ab sofort für Nutzer von ChatGPT Plus, Pro, Team, Edu und Enterprise freigeschaltet. Dabei löst die Max-Variante das alte GPT-5.1-Codex als Standardmodell ab. Während für das Vorgängermodell API-Preise von 1,25 US-Dollar pro Million Input-Token (0,13 US-Dollar cached) und 10,00 US-Dollar pro Million Output-Token galten, nennt OpenAI für das neue Modell noch keine Preise; der API-Zugang soll in Kürze folgen.

Für ChatGPT Plus-Nutzer liegen die Nutzungslimits bei 45 bis 225 lokalen Nachrichten und 10 bis 60 Cloud-Tasks alle fünf Stunden. Pro-Nutzer erhalten zwischen 300 und 1500 lokale Nachrichten sowie 50 bis 400 Cloud-Tasks im gleichen Zeitraum.

"Compaction" soll Kontext-Management verbessern

In internen Tests habe OpenAI zudem beobachtet, dass das neue Modell in der Lage sei, "mehr als 24 Stunden" an einer einzigen Aufgabe zu arbeiten – etwa um Testfehler zu beheben oder Implementierungen zu iterieren. Genauere Angaben zu diesen Aufgaben macht OpenAI nicht. Auch Anthropic behauptete kürzlich, sein KI-Modell Sonnet 4.5 könne mehr als einen Tag am Stück erfolgreich an einer Aufgabe arbeiten.

Anzeige
DEC_D_Incontent-2

Um diese langen Bearbeitungszeiten technisch zu realisieren, setzt OpenAI nach eigenen Angaben auf einen Prozess namens "Compaction" (Verdichtung). Dabei handelt es sich um eine Technik, bei der das Modell automatisch die bisherige Sitzungshistorie komprimiert, sobald das Limit des Kontextfensters erreicht wird.

Relevante Informationen werden dabei zusammengefasst und unwichtige Details entfernt, sodass das KI-Modell den Kern der Aufgabe und wichtige Zwischenschritte auch über lange Zeiträume hinweg behält – selbst wenn Millionen von Tokens verarbeitet werden müssen. Dieser Vorgang wird immer wieder wiederholt, bis die Aufgabe abgeschlossen ist. GPT-5.1-Codex-Max sei das erste Modell, das nativ darauf trainiert wurde, auf diese Weise "über mehrere Kontextfenster hinweg" zu arbeiten.

Zusätzlich betont OpenAI die Sicherheitsaspekte: Das Modell sei das bislang leistungsfähigste im Bereich Cybersecurity, bleibe aber unterhalb der internen Einstufung "High Capability". Verteidiger sollen unter anderem über Programme wie Aardvark unterstützt werden. OpenAI rät Entwicklern dennoch, die Arbeit des Agenten vor dem Deployment manuell zu überprüfen, da das Modell menschliche Reviews nicht ersetzen könne.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: OpenAI