OpenAIs neue Audio-Sprachmodelle sollen in Live-Gesprächen so schlau sein wie GPT-5
Kurz & Knapp
- OpenAI hat mit GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper eine neue Modellgeneration vorgestellt, die in Echtzeit schlussfolgern, übersetzen und transkribieren kann.
- Das Kernmodell GPT-Realtime-2 kann mehrere Werkzeuge parallel nutzen und verfügt über eine in fünf Stufen anpassbare "Reasoning"-Intensität.
- Ergänzt wird das Angebot durch das Live-Übersetzungsmodell GPT-Realtime-Translate und das Streaming-Transkriptionsmodell GPT-Realtime-Whisper. Alle drei Modelle sind ab sofort in der Realtime API verfügbar.
OpenAI stellt mit GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper eine neue Generation von Sprachmodellen vor, die in Echtzeit schlussfolgern, übersetzen und transkribieren sollen.
Zwar gibt es etwa in ChatGPT schon lange einen Audiomodus, auch Google mit Gemini bietet ein solches Echtzeit-Telefonat mit der KI an. Doch bislang waren die Modelle dahinter deutlich leistungsschwächer als die reinen Textmodelle, insbesondere die Reasoning-Modelle, die lange nachdenken.
Laut OpenAI reicht das nicht mehr aus: Ein moderner Sprachagent müsse verstehen, was jemand meint, den Kontext behalten, mit Änderungen umgehen, Werkzeuge nutzen und gleichzeitig angemessen reagieren.
Dafür hat sich das KI-Labor neue Ansätze ausgedacht, die sich auch kombinieren lassen. Bei "Voice-to-Action" beschreibt ein Nutzer per Sprache, was er benötigt, und das System schlussfolgert, nutzt Tools und führt die Aufgabe aus.
Bei "Systems-to-Voice" verwandelt Software Kontext in gesprochene Hinweise. Eine Reise-App könnte einem Reisenden proaktiv mitteilen, dass sein Anschlussflug trotz Verspätung noch erreichbar ist, den schnellsten Weg zum neuen Gate nennen und den Gepäcktransfer bestätigen. Bei "Voice-to-Voice" hilft KI dabei, Live-Gespräche über Sprachbarrieren hinweg fortzuführen.

Die Innovationen sollen bald auch für den Audiomodus von ChatGPT erscheinen. "Sprache kann jetzt wirklich das primäre Eingabe-Interface für KI werden", sagt OpenAI.
GPT-Realtime-2: Mit Hinhalte-Tricks zu mehr Nachdenkzeit
Das Kernstück der Veröffentlichung ist GPT-Realtime-2, das laut OpenAI über Reasoning auf GPT-5-Niveau verfügt. Das Modell ist für Live-Sprachinteraktionen konzipiert, bei denen es gleichzeitig Gespräche führen, Anfragen durchdenken, Tools aufrufen und auf Unterbrechungen reagieren soll.
Zu den technischen Neuerungen gehört eine Erweiterung des Kontextfensters von 32.000 auf 128.000 Token, was längere und komplexere Gesprächsverläufe ermöglichen soll. Das Modell kann mehrere Tools parallel aufrufen und diese Aktionen hörbar machen, etwa mit Phrasen wie "ich schaue das gerade nach". Sogenannte Preambles, also kurze einleitende Sätze wie "einen Moment", sollen dem Nutzer signalisieren, dass das System arbeitet. Bei Fehlern soll das Modell nicht mehr stumm abbrechen, sondern mit Sätzen wie "ich habe gerade Schwierigkeiten damit" reagieren.
Laut OpenAI versteht das Modell Fachterminologie, Eigennamen und medizinische Begriffe besser als sein Vorgänger. Der Tonfall lässt sich stärker kontrollieren: ruhig bei Problemlösungen, empathisch bei frustrierten Nutzern, fröhlich bei erfolgreichen Aktionen.
Entwickler können die Reasoning-Intensität in fünf Stufen einstellen: minimal, low, medium, high und xhigh. Der Standard ist "low", um bei einfachen Anfragen niedrige Latenz zu gewährleisten, während komplexere Aufgaben mehr Rechenleistung erhalten können.
Bei den Benchmarks schneidet GPT-Realtime-2 laut OpenAI deutlich besser ab als sein Vorgänger GPT-Realtime-1.5: In der Stufe "high" erreicht es bei Big Bench Audio eine Genauigkeit von 96,6 Prozent gegenüber 81,4 Prozent. Bei Audio MultiChallenge für Instruktionsbefolgung in Mehrfachdialogen erzielt die "xhigh"-Variante eine durchschnittliche Bestehensrate von 48,5 Prozent gegenüber 34,7 Prozent.

Live-Übersetzung in über 70 Sprachen hinein und 13 Sprachen heraus; Echtzeit-Transkription für Meetings und Workflows
GPT-Realtime-Translate ist ein eigenständiges Modell für Live-Übersetzung, das laut OpenAI mehr als 70 Eingabesprachen und 13 Ausgabesprachen unterstützt. Es soll die Bedeutung bewahren, während es mit dem Sprechtempo Schritt hält, auch bei Kontextwechseln, regionaler Aussprache und Fachsprache. Einsatzbereiche sind Kundensupport, grenzüberschreitender Vertrieb, Bildung, Events und Medien.
Das dritte Modell, GPT-Realtime-Whisper, ist ein Streaming-Transkriptionsmodell mit niedriger Latenz. Es transkribiert Sprache, während gesprochen wird, und zielt auf Anwendungen wie Live-Untertitel für Meetings, Unterricht, Übertragungen und Veranstaltungen. Teams können damit Notizen und Zusammenfassungen erstellen, während Gespräche noch laufen, Voice Agents mit kontinuierlichem Sprachverständnis bauen und schnellere Folgeprozesse für Kundensupport, Gesundheitswesen, Vertrieb und Recruiting aufsetzen.
Preise orientieren sich an Token und Minuten
Die drei Modelle sind ab sofort in der Realtime-API verfügbar und lassen sich im Playground testen. GPT-Realtime-2 kostet 32 US-Dollar pro eine Million Audio-Input-Token (0,40 US-Dollar für gecachte Eingaben) und 64 US-Dollar pro eine Million Audio-Output-Token. GPT-Realtime-Translate wird mit 0,034 US-Dollar pro Minute berechnet, GPT-Realtime-Whisper mit 0,017 US-Dollar pro Minute.
Die Realtime API unterstützt EU-Datenresidenz für in der EU ansässige Anwendungen und ist durch die Enterprise-Datenschutzverpflichtungen von OpenAI abgedeckt.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren