GPT‑5.1 startet in der API mit neuem Modus und besserer Code‑Performance
OpenAI hat das neue Sprachmodell GPT‑5.1 in der API freigeschaltet. Die Preise entsprechen denen von GPT‑5.
Parallel erscheinen mit gpt‑5.1‑codex und gpt‑5.1‑codex‑mini zwei Ableger für langlebige Programmieraufgaben. Das erweiterte Prompt-Caching hält nun bis zu 24 Stunden, was bei wiederholten Abfragen spürbare Geschwindigkeits- und Kostenvorteile bringen soll.
In den veröffentlichten Benchmarks zeigt GPT‑5.1 moderate Leistungszuwächse gegenüber GPT‑5. In SWE‑bench, einem Coding-Test, erreicht das neue Modell 76,3 Prozent statt 72,8 Prozent. In den meisten anderen Bereichen liegen die Werte weitgehend gleichauf, was auf Feinschliff statt großen Sprung hindeutet.
| Evaluation | GPT-5.1 (high) | GPT-5 (high) |
|---|---|---|
| SWE-bench Verified (all 500 problems) | 76.3% | 72.8% |
| GPQA Diamond (no tools) | 88.1% | 85.7% |
| AIME 2025 (no tools) | 94.0% | 94.6% |
| FrontierMath (with Python tool) | 26.7% | 26.3% |
| MMMU | 85.4% | 84.2% |
| Tau2-bench Airline | 67.0% | 62.6% |
| Tau2-bench Telecom* | 95.6% | 96.7% |
| Tau2-bench Retail | 77.9% | 81.1% |
| BrowseComp Long Context 128k | 90.0% | 90.0% |
Neu ist auch ein „No Reasoning“-Modus, bei dem GPT‑5.1 bewusst ohne tiefes Nachdenken arbeitet und dadurch deutlich schneller antwortet. In diesem Modus übertrifft das Modell laut OpenAI GPT‑5 mit „minimalem“ Reasoning insbesondere bei Tool-Nutzung, Codeausführung und Websuche.
Das neue Tool „apply_patch“ erlaubt es GPT‑5.1, Code gezielt zu verändern, Dateien zu erstellen, zu bearbeiten oder zu löschen. Das Shell-Tool kann dem Modell Kommandozeilenbefehle vorschlagen, die lokal ausgeführt und bewertet werden, ein Zeichen für zunehmende Automatisierungsfähigkeiten in Entwicklerumgebungen. Mehr Infos zum API-Modell gibt es hier.
GPT-5.1 ist seit gestern in ChatGPT allgemein verfügbar. OpenAI legte laut eigenen Angaben Schwerpunkte auf die Prompt-Befolgung sowie auf die Tonalität, die nun im Vergleich zu GPT-5 wieder wärmer und menschlicher wirken soll.
Sicherheit: Fortschritte beim Jailbreak-Schutz, Rückschritte bei heiklen Themen
OpenAIs begleitende Safety-Evaluation zeigt ein gemischtes Bild. Das GPT‑5.1‑instant‑Modell schützt deutlich besser vor Jailbreaks: Der sogenannte StrongReject-Wert springt von 0,850 beim Oktober‑Baseline‑Modell auf 0,976 – einer der größten Sicherheitsgewinne in der Bewertung.
Demgegenüber verzeichnet GPT‑5.1‑thinking Rückschritte bei sensiblen Themen wie Belästigung, Hassrede, Gewalt oder sexuelle Inhalte, teils um fünf bis acht Prozentpunkte. Beide Modellvarianten zeigen außerdem Einbußen bei emotionaler Abhängigkeit, beim Instant‑Modell sinkt der entsprechende Wert offline von 0.986 auf 0.945.
Das Thema mentale Gesundheit wird jetzt erstmals systematisch als eigener Prüfabschnitt bewertet. Dabei verbessert sich GPT‑5.1‑thinking deutlich (von 0.466 auf 0.684), während GPT‑5.1‑instant leicht zurückfällt (von 0.944 auf 0.883). In Online‑A/B‑Tests beobachtet OpenAI teils gegenläufige Trends, allerdings mit hoher Unsicherheit. Insgesamt wirken die abstrakten Zahlen wenig aussagekräftig – auch OpenAI selbst schreibt von einer geringen statistischen Verlässlichkeit. Letztlich wird der Alltag zeigen, wie sich das Modell tatsächlich auf Menschen auswirkt.