Anzeige
Skip to content

GPT‑5.1 startet in der API mit neuem Modus und besserer Code‑Performance

Image description
Sora prompted by THE DECODER

OpenAI hat das neue Sprachmodell GPT‑5.1 in der API freigeschaltet. Die Preise entsprechen denen von GPT‑5.

Parallel erscheinen mit gpt‑5.1‑codex und gpt‑5.1‑codex‑mini zwei Ableger für langlebige Programmieraufgaben. Das erweiterte Prompt-Caching hält nun bis zu 24 Stunden, was bei wiederholten Abfragen spürbare Geschwindigkeits- und Kostenvorteile bringen soll.

In den veröffentlichten Benchmarks zeigt GPT‑5.1 moderate Leistungszuwächse gegenüber GPT‑5. In SWE‑bench, einem Coding-Test, erreicht das neue Modell 76,3 Prozent statt 72,8 Prozent. In den meisten anderen Bereichen liegen die Werte weitgehend gleichauf, was auf Feinschliff statt großen Sprung hindeutet.

Evaluation GPT-5.1 (high) GPT-5 (high)
SWE-bench Verified (all 500 problems) 76.3% 72.8%
GPQA Diamond (no tools) 88.1% 85.7%
AIME 2025 (no tools) 94.0% 94.6%
FrontierMath (with Python tool) 26.7% 26.3%
MMMU 85.4% 84.2%
Tau2-bench Airline 67.0% 62.6%
Tau2-bench Telecom* 95.6% 96.7%
Tau2-bench Retail 77.9% 81.1%
BrowseComp Long Context 128k 90.0% 90.0%

Neu ist auch ein „No Reasoning“-Modus, bei dem GPT‑5.1 bewusst ohne tiefes Nachdenken arbeitet und dadurch deutlich schneller antwortet. In diesem Modus übertrifft das Modell laut OpenAI GPT‑5 mit „minimalem“ Reasoning insbesondere bei Tool-Nutzung, Codeausführung und Websuche.

Anzeige
DEC_D_Incontent-1

Das neue Tool „apply_patch“ erlaubt es GPT‑5.1, Code gezielt zu verändern, Dateien zu erstellen, zu bearbeiten oder zu löschen. Das Shell-Tool kann dem Modell Kommandozeilenbefehle vorschlagen, die lokal ausgeführt und bewertet werden, ein Zeichen für zunehmende Automatisierungsfähigkeiten in Entwicklerumgebungen. Mehr Infos zum API-Modell gibt es hier.

GPT-5.1 ist seit gestern in ChatGPT allgemein verfügbar. OpenAI legte laut eigenen Angaben Schwerpunkte auf die Prompt-Befolgung sowie auf die Tonalität, die nun im Vergleich zu GPT-5 wieder wärmer und menschlicher wirken soll.

Sicherheit: Fortschritte beim Jailbreak-Schutz, Rückschritte bei heiklen Themen

OpenAIs begleitende Safety-Evaluation zeigt ein gemischtes Bild. Das GPT‑5.1‑instant‑Modell schützt deutlich besser vor Jailbreaks: Der sogenannte StrongReject-Wert springt von 0,850 beim Oktober‑Baseline‑Modell auf 0,976 – einer der größten Sicherheitsgewinne in der Bewertung.

Demgegenüber verzeichnet GPT‑5.1‑thinking Rückschritte bei sensiblen Themen wie Belästigung, Hassrede, Gewalt oder sexuelle Inhalte, teils um fünf bis acht Prozentpunkte. Beide Modellvarianten zeigen außerdem Einbußen bei emotionaler Abhängigkeit, beim Instant‑Modell sinkt der entsprechende Wert offline von 0.986 auf 0.945.

Anzeige
DEC_D_Incontent-2

Das Thema mentale Gesundheit wird jetzt erstmals systematisch als eigener Prüfabschnitt bewertet. Dabei verbessert sich GPT‑5.1‑thinking deutlich (von 0.466 auf 0.684), während GPT‑5.1‑instant leicht zurückfällt (von 0.944 auf 0.883). In Online‑A/B‑Tests beobachtet OpenAI teils gegenläufige Trends, allerdings mit hoher Unsicherheit. Insgesamt wirken die abstrakten Zahlen wenig aussagekräftig – auch OpenAI selbst schreibt von einer geringen statistischen Verlässlichkeit. Letztlich wird der Alltag zeigen, wie sich das Modell tatsächlich auf Menschen auswirkt.