OpenAI stellt neue Audio-Modelle für Sprachagenten vor. Die verbesserten Speech-to-Text- und Text-to-Speech-Funktionen ermöglichen auch die Steuerung des Sprechstils durch Prompts.
Die neuen Speech-to-Text-Modelle gpt-4o-transcribe und gpt-4o-mini-transcribe erreichen laut OpenAI Bestwerte bei der Wortfehlerrate und übertreffen damit die bisherigen Whisper-Modelle bei Text-zu-Sprache. Besonders in schwierigen Situationen wie bei Akzenten, Hintergrundgeräuschen und unterschiedlichen Sprechgeschwindigkeiten sollen die Modelle zuverlässiger arbeiten.
Die größere Neuerung ist das Text-to-Speech-Modell gpt-4o-mini-tts: Entwickler können den Text vorgeben und bestimmen, wie er gesprochen werden soll - etwa "sprich wie ein Pirat" oder im Stil einer "Gute-Nacht-Geschichte". Die technische Basis der neuen Modelle sind die multimodalen GPT-4o- und GPT-4o-mini-Architekturen.
Die Fortschritte der Audio-Modelle basieren laut OpenAI auf drei Säulen: Vortraining mit spezialisierten Audio-Datensätzen für tieferes Verständnis für Sprachnuancen, verbesserte Destillationsmethoden für effizientere kleine Modelle und ein verstärkter Einsatz von Reinforcement Learning bei der Spracherkennung. Hierbei kamen sogenannte Self-Play-Methoden zum Einsatz, die realistische Gesprächsdynamiken nachbilden.
Sofortige Verfügbarkeit für Entwickler
Die neuen Audio-Modelle stehen ab sofort allen Entwicklern via API zur Verfügung. Für die Entwicklung von Sprachagenten bietet OpenAI eine Integration mit dem Agents SDK an. Für Anwendungen mit geringer Latenz empfiehlt das Unternehmen die Realtime-API mit Speech-to-Speech-Modellen.
OpenAI betont, dass derzeit nur vordefinierte künstliche Stimmen verwendet werden, die unter der Kontrolle von OpenAI stehen. Das Erstellen von völlig neuen Stimmen oder gar Stimmklonen ist daher derzeit nicht möglich.
OpenAI plant aber nach eigenen Angaben weitere Investitionen in die Verbesserung der Audio-Modelle und will Entwicklern künftig ermöglichen, eigene Stimmen einzubringen - unter Berücksichtigung der Sicherheitsstandards. Zudem sollen weitere Modalitäten wie Video folgen, um multimodale Agenten-Erfahrungen zu ermöglichen.
OpenAI hatte bereits im März 2024 mit der VoiceEngine ein eigenes Modell für KI-Stimmen vorgestellt und setzt es unter anderem für die eigenen Produkte ein. Eine breite Veröffentlichung erfolgte nicht; offenbar konnte die VoiceEngine nun durch die Multimodalität von GPT-4o ersetzt werden.