Inhalt
summary Zusammenfassung

OpenAI hat seine Realtime-API aus der Beta genommen und offiziell für den produktiven Einsatz freigegeben.

Anzeige

Die Schnittstelle richtet sich an Unternehmen und Entwickler, die Sprachassistenten in realen Anwendungen einsetzen wollen – etwa in Kundenservice, Bildung oder persönlicher Assistenz. Zentrales Element ist das neue Modell „gpt-realtime“, das Sprache direkt verarbeitet und erzeugt, ohne den Umweg über Textmodelle. Es reagiert schneller, klingt natürlicher und kann auch komplexe Anweisungen besser befolgen.

gpt-realtime erkennt nonverbale Signale wie Lachen, kann mitten im Satz die Sprache wechseln und fein abgestimmt sprechen – zum Beispiel „freundlich im französischen Akzent“ oder „schnell und professionell“. Zwei neue Stimmen, Cedar und Marin, wurden eingeführt. Die bestehende Stimmauswahl wurde ebenfalls hörbar verbessert. Im Benchmark Big Bench Audio erreicht das Modell 82,8 % Genauigkeit (Vorgängermodell: 65,6 %), bei MultiChallenge 30,5 % (vorher: 20,6 %) und bei ComplexFuncBench 66,5 % (vorher: 49,7 %).

Video: OpenAI

Anzeige
Anzeige

Verbesserte Tool-Unterstützung und Bildeingabe

Ein zentrales Thema sind die erweiterten Möglichkeiten zur Tool-Integration. Das Modell kann Werkzeuge (Tools) jetzt asynchron aufrufen – es bleibt während längerer Funktionen weiter im Gespräch und unterbricht die Unterhaltung nicht. Tool-Aufrufe sind insgesamt zuverlässiger: Das Modell wählt passende Tools, Zeitpunkte und Parameter gezielter aus. Über SIP-Unterstützung und Remote-MCP-Server können externe Tools und Dienste einfach angebunden und direkt genutzt werden. Mit wiederverwendbaren Prompts lassen sich Konfigurationen und Tool-Einstellungen für verschiedene Gesprächsszenarien speichern.

Neu ist auch die Unterstützung von Bild-Eingaben: Nutzer können Screenshots oder Fotos teilen, auf die sich das Modell dann im Gespräch bezieht. Etwa, um Text in einem Bild vorzulesen oder eine Frage zur Darstellung zu beantworten. Dabei behalten Entwickler die Kontrolle darüber, was das Modell sieht.

OpenAI hat zudem neue Steuerungsfunktionen eingeführt, mit denen sich Tokenlimits setzen und mehrere Gesprächsrunden gleichzeitig kürzen lassen – so lassen sich Kosten bei langen Sitzungen gezielt senken. Die Preise für gpt-realtime liegen 20 % unter der vorherigen Version: 32 US-Dollar pro Million Audio-Eingabetoken und 64 US-Dollar pro Million Ausgabe-Tokens. Cached Input Tokens kosten 0,40 US-Dollar pro Million.

Die API erkennt problematische Inhalte laut OpenAI automatisch und kann Gespräche bei Verstößen gegen die Richtlinien beenden. Entwickler haben die Möglichkeit, eigene Sicherheitsvorgaben zu ergänzen. Für Anwendungen in der EU gibt es Optionen zur Speicherung von Daten innerhalb der EU und spezielle Datenschutzregelungen für Unternehmen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI hat die Realtime-API offiziell veröffentlicht, die speziell für Unternehmen und Entwickler konzipiert ist, um Sprachassistenten in realen Anwendungen einzusetzen.
  • Das neue Modell "gpt-realtime" verarbeitet und erzeugt Sprache direkt, reagiert schneller, klingt natürlicher und erkennt nonverbale Signale sowie Sprachwechsel im Vergleich zum Beta-Modell.
  • Die API unterstützt nun Bild-Eingaben, eine verbesserte Tool-Integration mit asynchronen Aufrufen und bietet neue Steuerungsfunktionen wie Tokenlimits und paralleles Kürzen mehrerer Sitzungen
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!