OpenAIs Realtime-API versteht Lachen, Akzente und kann Sprachwechsel mitten im Satz

OpenAI hat seine Realtime-API aus der Beta genommen und offiziell für den produktiven Einsatz freigegeben.

Die Schnittstelle richtet sich an Unternehmen und Entwickler, die Sprachassistenten in realen Anwendungen einsetzen wollen – etwa in Kundenservice, Bildung oder persönlicher Assistenz. Zentrales Element ist das neue Modell „gpt-realtime“, das Sprache direkt verarbeitet und erzeugt, ohne den Umweg über Textmodelle. Es reagiert schneller, klingt natürlicher und kann auch komplexe Anweisungen besser befolgen.

gpt-realtime erkennt nonverbale Signale wie Lachen, kann mitten im Satz die Sprache wechseln und fein abgestimmt sprechen – zum Beispiel „freundlich im französischen Akzent“ oder „schnell und professionell“. Zwei neue Stimmen, Cedar und Marin, wurden eingeführt. Die bestehende Stimmauswahl wurde ebenfalls hörbar verbessert. Im Benchmark Big Bench Audio erreicht das Modell 82,8 % Genauigkeit (Vorgängermodell: 65,6 %), bei MultiChallenge 30,5 % (vorher: 20,6 %) und bei ComplexFuncBench 66,5 % (vorher: 49,7 %).

Video: OpenAI

Verbesserte Tool-Unterstützung und Bildeingabe

Ein zentrales Thema sind die erweiterten Möglichkeiten zur Tool-Integration. Das Modell kann Werkzeuge (Tools) jetzt asynchron aufrufen – es bleibt während längerer Funktionen weiter im Gespräch und unterbricht die Unterhaltung nicht. Tool-Aufrufe sind insgesamt zuverlässiger: Das Modell wählt passende Tools, Zeitpunkte und Parameter gezielter aus. Über SIP-Unterstützung und Remote-MCP-Server können externe Tools und Dienste einfach angebunden und direkt genutzt werden. Mit wiederverwendbaren Prompts lassen sich Konfigurationen und Tool-Einstellungen für verschiedene Gesprächsszenarien speichern.

Neu ist auch die Unterstützung von Bild-Eingaben: Nutzer können Screenshots oder Fotos teilen, auf die sich das Modell dann im Gespräch bezieht. Etwa, um Text in einem Bild vorzulesen oder eine Frage zur Darstellung zu beantworten. Dabei behalten Entwickler die Kontrolle darüber, was das Modell sieht.

OpenAI hat zudem neue Steuerungsfunktionen eingeführt, mit denen sich Tokenlimits setzen und mehrere Gesprächsrunden gleichzeitig kürzen lassen – so lassen sich Kosten bei langen Sitzungen gezielt senken. Die Preise für gpt-realtime liegen 20 % unter der vorherigen Version: 32 US-Dollar pro Million Audio-Eingabetoken und 64 US-Dollar pro Million Ausgabe-Tokens. Cached Input Tokens kosten 0,40 US-Dollar pro Million.

Die API erkennt problematische Inhalte laut OpenAI automatisch und kann Gespräche bei Verstößen gegen die Richtlinien beenden. Entwickler haben die Möglichkeit, eigene Sicherheitsvorgaben zu ergänzen. Für Anwendungen in der EU gibt es Optionen zur Speicherung von Daten innerhalb der EU und spezielle Datenschutzregelungen für Unternehmen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

OpenAIs Realtime-API versteht Lachen, Akzente und kann Sprachwechsel mitten im Satz

Verbesserte Tool-Unterstützung und Bildeingabe

ChatGPTs Memory-Funktion könnte zur Werbefalle werden

ChatGPT als Suchmaschine für Arbeitsdaten: OpenAI führt "Company Knowledge" ein

Anthropic plant Einsatz von bis zu einer Million Google-KI-Chips bis 2026

ChatGPTs Memory-Funktion könnte zur Werbefalle werden

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

OpenAIs Realtime-API versteht Lachen, Akzente und kann Sprachwechsel mitten im Satz

Verbesserte Tool-Unterstützung und Bildeingabe

ChatGPTs Memory-Funktion könnte zur Werbefalle werden

ChatGPT als Suchmaschine für Arbeitsdaten: OpenAI führt "Company Knowledge" ein

Anthropic plant Einsatz von bis zu einer Million Google-KI-Chips bis 2026