Inhalt
summary Zusammenfassung

OpenAI stellt neue Audio-Modelle für Sprachagenten vor. Die verbesserten Speech-to-Text- und Text-to-Speech-Funktionen ermöglichen auch die Steuerung des Sprechstils durch Prompts.

Anzeige

Die neuen Speech-to-Text-Modelle gpt-4o-transcribe und gpt-4o-mini-transcribe erreichen laut OpenAI Bestwerte bei der Wortfehlerrate und übertreffen damit die bisherigen Whisper-Modelle bei Text-zu-Sprache. Besonders in schwierigen Situationen wie bei Akzenten, Hintergrundgeräuschen und unterschiedlichen Sprechgeschwindigkeiten sollen die Modelle zuverlässiger arbeiten.

Die größere Neuerung ist das Text-to-Speech-Modell gpt-4o-mini-tts: Entwickler können den Text vorgeben und bestimmen, wie er gesprochen werden soll - etwa "sprich wie ein Pirat" oder im Stil einer "Gute-Nacht-Geschichte". Die technische Basis der neuen Modelle sind die multimodalen GPT-4o- und GPT-4o-mini-Architekturen.

Die Fortschritte der Audio-Modelle basieren laut OpenAI auf drei Säulen: Vortraining mit spezialisierten Audio-Datensätzen für tieferes Verständnis für Sprachnuancen, verbesserte Destillationsmethoden für effizientere kleine Modelle und ein verstärkter Einsatz von Reinforcement Learning bei der Spracherkennung. Hierbei kamen sogenannte Self-Play-Methoden zum Einsatz, die realistische Gesprächsdynamiken nachbilden.

Anzeige
Anzeige

Sofortige Verfügbarkeit für Entwickler

Die neuen Audio-Modelle stehen ab sofort allen Entwicklern via API zur Verfügung. Für die Entwicklung von Sprachagenten bietet OpenAI eine Integration mit dem Agents SDK an. Für Anwendungen mit geringer Latenz empfiehlt das Unternehmen die Realtime-API mit Speech-to-Speech-Modellen.

OpenAI betont, dass derzeit nur vordefinierte künstliche Stimmen verwendet werden, die unter der Kontrolle von OpenAI stehen. Das Erstellen von völlig neuen Stimmen oder gar Stimmklonen ist daher derzeit nicht möglich.

OpenAI plant aber nach eigenen Angaben weitere Investitionen in die Verbesserung der Audio-Modelle und will Entwicklern künftig ermöglichen, eigene Stimmen einzubringen - unter Berücksichtigung der Sicherheitsstandards. Zudem sollen weitere Modalitäten wie Video folgen, um multimodale Agenten-Erfahrungen zu ermöglichen.

OpenAI hatte bereits im März 2024 mit der VoiceEngine ein eigenes Modell für KI-Stimmen vorgestellt und setzt es unter anderem für die eigenen Produkte ein. Eine breite Veröffentlichung erfolgte nicht; offenbar konnte die VoiceEngine nun durch die Multimodalität von GPT-4o ersetzt werden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI stellt verbesserte Audio-Modelle vor, darunter gpt-4o-transcribe und gpt-4o-mini-transcribe, die Sprache zuverlässiger in Text umwandeln und dabei besser mit schwierigen Bedingungen wie Hintergrundgeräuschen oder Akzenten umgehen.
  • Das neue Text-to-Speech-Modell gpt-4o-mini-tts erlaubt Entwicklern, durch Textvorgaben auch den Sprechstil zu bestimmen, etwa eine Piratenstimme zu imitieren.
  • Die Modelle basieren auf GPT-4o-Technologie und stehen ab sofort Entwicklern zur Verfügung; in Zukunft plant OpenAI, weitere Verbesserungen vorzunehmen, darunter die optionale Nutzung eigener Stimmen und die Erweiterung um Video-Funktionen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!