GPT‑5-Codex: OpenAI startet spezialisierte GPT‑5-Variante für Softwareentwicklung

15. September 2025

OpenAI

Kurz & Knapp

OpenAI hat GPT-5-Codex veröffentlicht, eine spezialisierte Variante von GPT-5 für automatisierte Softwareentwicklung, die komplexe Programmieraufgaben wie Refaktorierungen, Testgenerierung und Code-Reviews selbstständig lösen kann.
In Benchmarks übertrifft GPT-5-Codex das Standard-GPT-5-Modell: Bei SWE-bench Verified erreicht es 74,5 Prozent Genauigkeit gegenüber 72,8 Prozent, bei Refactoring-Aufgaben 51,3 Prozent gegenüber 33,9 Prozent.
Das System ist über CLI, IDE-Erweiterungen und Cloud-Umgebungen verfügbar und in ChatGPT Plus, Pro, Business, Edu und Enterprise enthalten, wobei höhere Tarife mehrere Projekte pro Woche ermöglichen.

OpenAI veröffentlicht mit GPT‑5-Codex ein neues Modell für den Codex-Agenten. Es soll komplexe Programmieraufgaben selbstständig lösen und Software zuverlässig prüfen – in lokalen Entwicklungsumgebungen, der Cloud oder direkt auf GitHub.

OpenAI hat GPT‑5-Codex veröffentlicht – eine Variante von GPT‑5, die für den Einsatz als automatisierter Software-Agent optimiert wurde. Das Modell ist auf reale Entwicklungsaufgaben ausgelegt, darunter Refaktorierungen, Testgenerierung, Bugfixes und Code-Reviews. Es wird in der neuen Version des Codex-Systems eingesetzt, das in Terminal, IDEs, Webumgebungen und GitHub integriert ist.

GPT‑5-Codex kann laut OpenAI sowohl in interaktiven Sessions als auch bei längeren, unabhängigen Aufgaben eingesetzt werden. Im Test arbeitete das Modell über sieben Stunden an komplexen Aufgaben, inklusive mehrfacher Iterationen und Testläufen. Die Rechenzeit wird abhängig von der Komplexität dynamisch angepasst: Bei einfachen Aufgaben benötigt es deutlich weniger Tokens als GPT‑5, bei schwierigen Aufgaben mehr.

Bessere Ergebnisse als GPT‑5 bei Benchmarks

In standardisierten Tests schneidet GPT‑5-Codex besser ab als GPT‑5. In SWE-bench Verified erreicht GPT‑5-Codex eine Genauigkeit von 74,5 Prozent, GPT‑5 liegt bei 72,8 Prozent. Bei Refactoring-Aufgaben kommt GPT‑5-Codex auf 51,3 Prozent, GPT‑5 nur auf 33,9 Prozent. Die Benchmarks umfassen Aufgaben aus etablierten Open-Source-Projekten in Sprachen wie Python, Go oder OCaml.

GPT‑5-Codex wurde außerdem speziell für Code-Reviews trainiert: Es analysiert Commits, prüft Abhängigkeiten, führt Tests aus und vergleicht beabsichtigte Änderungen mit tatsächlichen Diffs. Die Qualität der Kommentare wurde laut OpenAI von erfahrenen Entwicklern bewertet und GPT‑5-Codex soll deutlich seltener irrelevante oder falsche Hinweise geben als andere Modelle, inklusive GPT-5.

Integration in Entwicklungsumgebungen

Codex ist über die CLI, eine IDE-Erweiterung (u. a. für VS Code) und die Codex-Cloud-Umgebung nutzbar. In der CLI lassen sich Bilder wie Screenshots oder Diagramme anhängen, um Designentscheidungen zu erklären. Codex erstellt To-do-Listen und kann auf externe Tools wie Websuche oder MCP-Server zugreifen.

Die Cloud-Version erkennt zudem gängige Setup-Skripte automatisch, installiert fehlende Abhängigkeiten und startet bei Bedarf einen eigenen Browser, um visuelle Ergebnisse zu prüfen. Ergebnis-Screenshots können an Aufgaben und PRs angehängt werden.

GPT‑5-Codex ist in ChatGPT Plus, Pro, Business, Edu und Enterprise enthalten. In den höheren Tarifen lassen sich mehrere Projekte pro Woche abbilden. Business- und Enterprise-Kunden können zusätzliches Nutzungskontingent erwerben. Eine API-Anbindung ist angekündigt, aber noch nicht verfügbar.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: OpenAI