OpenAI veröffentlicht realistische KI-Stimmen in der API
OpenAI stellt neue Audio-Modelle für Sprachagenten vor. Die verbesserten Speech-to-Text- und Text-to-Speech-Funktionen ermöglichen auch die Steuerung des Sprechstils durch Prompts.
Die neuen Speech-to-Text-Modelle gpt-4o-transcribe und gpt-4o-mini-transcribe erreichen laut OpenAI Bestwerte bei der Wortfehlerrate und übertreffen damit die bisherigen Whisper-Modelle bei Text-zu-Sprache. Besonders in schwierigen Situationen wie bei Akzenten, Hintergrundgeräuschen und unterschiedlichen Sprechgeschwindigkeiten sollen die Modelle zuverlässiger arbeiten.
Die größere Neuerung ist das Text-to-Speech-Modell gpt-4o-mini-tts: Entwickler können den Text vorgeben und bestimmen, wie er gesprochen werden soll - etwa "sprich wie ein Pirat" oder im Stil einer "Gute-Nacht-Geschichte". Die technische Basis der neuen Modelle sind die multimodalen GPT-4o- und GPT-4o-mini-Architekturen.
Die Fortschritte der Audio-Modelle basieren laut OpenAI auf drei Säulen: Vortraining mit spezialisierten Audio-Datensätzen für tieferes Verständnis für Sprachnuancen, verbesserte Destillationsmethoden für effizientere kleine Modelle und ein verstärkter Einsatz von Reinforcement Learning bei der Spracherkennung. Hierbei kamen sogenannte Self-Play-Methoden zum Einsatz, die realistische Gesprächsdynamiken nachbilden.
Sofortige Verfügbarkeit für Entwickler
Die neuen Audio-Modelle stehen ab sofort allen Entwicklern via API zur Verfügung. Für die Entwicklung von Sprachagenten bietet OpenAI eine Integration mit dem Agents SDK an. Für Anwendungen mit geringer Latenz empfiehlt das Unternehmen die Realtime-API mit Speech-to-Speech-Modellen.
OpenAI betont, dass derzeit nur vordefinierte künstliche Stimmen verwendet werden, die unter der Kontrolle von OpenAI stehen. Das Erstellen von völlig neuen Stimmen oder gar Stimmklonen ist daher derzeit nicht möglich.
OpenAI plant aber nach eigenen Angaben weitere Investitionen in die Verbesserung der Audio-Modelle und will Entwicklern künftig ermöglichen, eigene Stimmen einzubringen - unter Berücksichtigung der Sicherheitsstandards. Zudem sollen weitere Modalitäten wie Video folgen, um multimodale Agenten-Erfahrungen zu ermöglichen.
OpenAI hatte bereits im März 2024 mit der VoiceEngine ein eigenes Modell für KI-Stimmen vorgestellt und setzt es unter anderem für die eigenen Produkte ein. Eine breite Veröffentlichung erfolgte nicht; offenbar konnte die VoiceEngine nun durch die Multimodalität von GPT-4o ersetzt werden.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.