OpenAI hat den Advanced Voice Mode für ChatGPT-Plus- und Team-Nutzer eingeführt. Viele der zuvor demonstrierten Funktionen fehlen jedoch noch, und in der EU ist das Feature nicht verfügbar.
OpenAI-CEO Sam Altman gab bekannt, dass der Rollout des Advanced Voice Mode für ChatGPT-Plus- und Team-Nutzer abgeschlossen ist. Die neue Funktion ermöglicht Sprachinteraktionen mit dem KI-Assistenten und verspricht verbesserte Akzente sowie eine höhere Konversationsgeschwindigkeit.
Zu den neuen Features gehören Custom Instructions, Memory und fünf neue Stimmen. Allerdings bleiben viele der bei der Vorstellung von GPT-4o, dem Modell hinter dem Advanced Voice Mode, gezeigten Fähigkeiten vorerst außen vor.
Bei der Präsentation von GPT-4o demonstrierte OpenAI deutlich umfangreichere Funktionen, insbesondere im Bereich der visuellen Verarbeitung. Dazu gehörten die Analyse von Videos oder Grafiken in Echtzeit sowie die Erkennung von Emotionen in Gesichtern. Der aktuell verfügbare Advanced Voice Mode kann jedoch keine Bilder oder Videos verarbeiten.
OpenAI hatte in den Demos beispielsweise gezeigt, wie der Modus einem Kind Mathematik beibringt, indem er dessen Zeichnungen auf einem iPad analysiert. Auch das Singen oder Summen, das in den Präsentationen vorgeführt wurde, ist in der jetzigen Version nicht verfügbar.
Derzeit kann der Advanced Voice Mode auch nicht das Internet durchsuchen. Zudem ist es nicht möglich, von einer Textkonversation in den Advanced Voice Mode zu wechseln oder ein Standardgespräch in den erweiterten Modus zu überführen.
Fehlende Features und kein Zugriff in allen Ländern
Bei der Vorstellung von GPT-4o präsentierte OpenAI außerdem eine ganze Palette an multimodalen Fähigkeiten des neuen Modells, darunter die Generierung von Bildern. Auch diese Funktionen hat das Unternehmen bisher nicht veröffentlicht.
Zudem ist der Advanced Voice Mode in der EU, Großbritannien, der Schweiz und einigen anderen europäischen Ländern nicht verfügbar ist. Ein möglicher Grund dafür könnte die Fähigkeit des Systems sein, Emotionen zu erkennen - eine Funktion, die nach dem EU AI Act verboten wäre.
Seit der Vorstellung des Advanced Voice Modes im Mai haben auch andere Unternehmen ähnliche Produkte vorgestellt oder veröffentlicht, insbesondere Google mit Gemini Live. Mit Moshi gibt es zudem eine erste - wenn auch schwächere - Open-Source-Alternative.