OpenAI hat die Sprachfunktion von ChatGPT für zahlende Nutzer überarbeitet. Laut OpenAI soll die KI jetzt natürlicher sprechen, Gefühle besser erkennen und Gespräche durchgehend in mehreren Sprachen übersetzen können.
OpenAI hat die Funktion "Advanced Voice Mode" in ChatGPT mit einem Update versehen, das die Ausdrucksfähigkeit deutlich verbessern soll. Die überarbeitete Sprachfunktion soll flüssiger, emotional nuancierter und insgesamt menschlicher klingen. Laut OpenAI wurden Intonation, Pausensetzung und Betonungen überarbeitet, sodass die KI unter anderem Empathie und Sarkasmus realistischer ausdrücken kann.
Neben diesen klanglichen Verbesserungen bietet die Sprachfunktion nun eine erweiterte Übersetzungsfähigkeit. Nutzer können der KI mitteilen, dass sie zwischen bestimmten Sprachen übersetzen soll – etwa zwischen Englisch und Portugiesisch – woraufhin sie fortlaufend beide Gesprächsseiten simultan übersetzt. Die Übersetzung bleibt aktiv, bis der Nutzer sie deaktiviert oder auf eine andere Sprache umstellt. OpenAI nennt als Beispiele die Verständigung im Restaurant oder Gespräche mit internationalen Kollegen.
Das Update steht allen zahlenden Nutzern auf allen Plattformen zur Verfügung. Die Funktion lässt sich über das Sprachsymbol im Chatfenster aktivieren.
Bekannte Schwächen bleiben bestehen
Trotz der Fortschritte weist OpenAI auf bestehende Einschränkungen hin. In Tests kam es vereinzelt zu Qualitätseinbußen, etwa unerwarteten Änderungen in der Tonhöhe oder Lautstärke. Diese Probleme seien stärker bei bestimmten Stimmen ausgeprägt.
Zudem kommt es weiterhin zu sogenannten Halluzinationen: Die KI erzeugt ohne Aufforderung Geräusche, die an Werbung, Kauderwelsch oder Hintergrundmusik erinnern. OpenAI will die Stabilität weiter verbessern. Ein Nutzer berichtet kürzlich, ChatGPT habe plötzlich mitten im Gespräch eine Werbeanzeige intoniert; dabei spielt OpenAI offiziell keine Werbung aus.
OpenAI hatte den Advanced Voice Mode erstmals im Mai 2024 vorgestellt. Seit Oktober 2024 ist er auch in der EU verfügbar.
Ziel des Modus ist eine möglichst natürliche Interaktion mit der KI in Echtzeit, inklusive der Fähigkeit, Gespräche zu unterbrechen und emotional zu reagieren. Aktiviert man zusätzlich die Kamera, kann ChatGPT auch Gegenstände oder die Umgebung live kommentieren. Google bietet in der Gemini-App ähnliche Funktionen.