OpenAI hat seine Realtime-API aus der Beta genommen und offiziell für den produktiven Einsatz freigegeben.
Die Schnittstelle richtet sich an Unternehmen und Entwickler, die Sprachassistenten in realen Anwendungen einsetzen wollen – etwa in Kundenservice, Bildung oder persönlicher Assistenz. Zentrales Element ist das neue Modell „gpt-realtime“, das Sprache direkt verarbeitet und erzeugt, ohne den Umweg über Textmodelle. Es reagiert schneller, klingt natürlicher und kann auch komplexe Anweisungen besser befolgen.
gpt-realtime erkennt nonverbale Signale wie Lachen, kann mitten im Satz die Sprache wechseln und fein abgestimmt sprechen – zum Beispiel „freundlich im französischen Akzent“ oder „schnell und professionell“. Zwei neue Stimmen, Cedar und Marin, wurden eingeführt. Die bestehende Stimmauswahl wurde ebenfalls hörbar verbessert. Im Benchmark Big Bench Audio erreicht das Modell 82,8 % Genauigkeit (Vorgängermodell: 65,6 %), bei MultiChallenge 30,5 % (vorher: 20,6 %) und bei ComplexFuncBench 66,5 % (vorher: 49,7 %).
Video: OpenAI
Verbesserte Tool-Unterstützung und Bildeingabe
Ein zentrales Thema sind die erweiterten Möglichkeiten zur Tool-Integration. Das Modell kann Werkzeuge (Tools) jetzt asynchron aufrufen – es bleibt während längerer Funktionen weiter im Gespräch und unterbricht die Unterhaltung nicht. Tool-Aufrufe sind insgesamt zuverlässiger: Das Modell wählt passende Tools, Zeitpunkte und Parameter gezielter aus. Über SIP-Unterstützung und Remote-MCP-Server können externe Tools und Dienste einfach angebunden und direkt genutzt werden. Mit wiederverwendbaren Prompts lassen sich Konfigurationen und Tool-Einstellungen für verschiedene Gesprächsszenarien speichern.
Neu ist auch die Unterstützung von Bild-Eingaben: Nutzer können Screenshots oder Fotos teilen, auf die sich das Modell dann im Gespräch bezieht. Etwa, um Text in einem Bild vorzulesen oder eine Frage zur Darstellung zu beantworten. Dabei behalten Entwickler die Kontrolle darüber, was das Modell sieht.
OpenAI hat zudem neue Steuerungsfunktionen eingeführt, mit denen sich Tokenlimits setzen und mehrere Gesprächsrunden gleichzeitig kürzen lassen – so lassen sich Kosten bei langen Sitzungen gezielt senken. Die Preise für gpt-realtime liegen 20 % unter der vorherigen Version: 32 US-Dollar pro Million Audio-Eingabetoken und 64 US-Dollar pro Million Ausgabe-Tokens. Cached Input Tokens kosten 0,40 US-Dollar pro Million.
Die API erkennt problematische Inhalte laut OpenAI automatisch und kann Gespräche bei Verstößen gegen die Richtlinien beenden. Entwickler haben die Möglichkeit, eigene Sicherheitsvorgaben zu ergänzen. Für Anwendungen in der EU gibt es Optionen zur Speicherung von Daten innerhalb der EU und spezielle Datenschutzregelungen für Unternehmen.