OpenAIs neue Realtime API: KI-Assistenten sprechen jetzt in Echtzeit

OpenAI ermöglicht Entwicklern die Integration realistischer KI-Stimmen in Apps und das Feintuning von GPT-4o mit Bildern. Die neuen Funktionen sollen die Interaktion mit KI-Systemen natürlicher gestalten.

OpenAI hat auf seiner Entwicklerkonferenz DevDay neue Möglichkeiten für App-Entwickler angekündigt. Ab sofort können sie die fortschrittliche Sprachsynthese-Technologie des Unternehmens in ihre Anwendungen integrieren.

Die als "Realtime API" bezeichnete Schnittstelle bietet sechs KI-Stimmen zur Auswahl. Diese unterscheiden sich laut OpenAI von den für ChatGPT verwendeten Stimmen. Um urheberrechtliche Probleme zu vermeiden, dürfen Entwickler keine Stimmen von Dritten einsetzen.

In einer Präsentation zeigte OpenAI eine Reiseplanungs-App, die mit der Realtime API entwickelt wurde. Nutzer konnten verbal mit einem KI-Assistenten über eine London-Reise sprechen und erhielten Antworten mit geringer Latenz. Die API kann auch Karten mit Restaurantempfehlungen annotieren.

Die Technologie kann auch in Telefonanrufe integriert werden, etwa um Bestellungen aufzugeben. OpenAI fügt jedoch keine automatische Offenlegung hinzu, dass es sich um eine KI-Stimme handelt. Das bleibt vorerst in der Verantwortung der Entwickler.

Neue Funktionen für GPT-4o und Kosteneinsparungen

Neben der Sprachsynthese kündigte OpenAI weitere Neuerungen an. Entwickler können nun auch Bilder zum Feintuning von GPT-4o verwenden. Mit nur 100 Beispielbildern lässt sich die Leistung des Modells für bestimmte visuelle Aufgaben verbessern.

Eine neue Prompt-Caching-Funktion soll Kosten und Latenz reduzieren. Durch die Wiederverwendung kürzlich gesehener Eingabe-Tokens können Entwickler einen Rabatt von 50 Prozent und schnellere Verarbeitungszeiten erzielen.

Das Prompt-Caching wird automatisch auf die neuesten Versionen von GPT-4o, GPT-4o mini, o1-preview und o1-mini sowie auf feinabgestimmte Versionen dieser Modelle angewendet.

Mit "Modell-Destillation" lassen sich kleinere Modelle wie GPT-4o mini mithilfe der Outputs größerer Modelle optimieren. OpenAI stellt dafür neue integrierte Werkzeuge bereit, darunter gespeicherte Vervollständigungen und Evaluierungsmöglichkeiten.

Empfehlung

KI in der Praxis

Update

OpenAI testet KI-Modelle erstmals systematisch an realer Wissensarbeit

OpenAI verdoppelt zudem das Rate-Limit für sein neues o1-Modell. Um Entwicklern den Einstieg zu erleichtern, bietet das Unternehmen bis Ende Oktober kostenlose Trainingskontingente für GPT-4o und GPT-4o mini an.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

OpenAIs neue Realtime API: KI-Assistenten sprechen jetzt in Echtzeit

Neue Funktionen für GPT-4o und Kosteneinsparungen

OpenAI testet KI-Modelle erstmals systematisch an realer Wissensarbeit

OpenAI sichert sich Rechenleistung für eine Billion Dollar trotz Kapitalmangels

"Scheming": Chain-of-Thought wird zum unzuverlässigen Spiegel von KI-Entscheidungen

OpenAI schlägt Google und Menschen im führenden Coding-Wettbewerb für Studenten

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

OpenAI: GPT-5 soll deutlich weniger politisch voreingenommen sein

OpenAIs neue Realtime API: KI-Assistenten sprechen jetzt in Echtzeit

Neue Funktionen für GPT-4o und Kosteneinsparungen

Artikel teilen

Bankverbindung