Anthropic rollt einen neuen Voice-Modus für seine mobilen Claude-Apps aus. Nutzer:innen können mit dem KI-Chatbot jetzt auch gesprochene Konversationen führen, zunächst jedoch nur auf Englisch
Anthropics Voice-Modus soll die Nutzung von Claude erleichtern, wenn man gerade keine Hände frei hat – etwa beim Kochen, Sport oder unterwegs. Die Sprachfunktion ist über ein neues Wellenform-Symbol neben dem Mikrofon in der Texteingabe erreichbar. Nutzer:innen können aus fünf verschiedenen Stimmen wählen.

Das Feature basiert standardmäßig auf dem kürzlich eingeführten Modell Claude Sonnet 4. Während Claude spricht, werden die wichtigsten Punkte der Antwort in Echtzeit auf dem Bildschirm eingeblendet.
Im Voice-Modus können Nutzer:innen zwischen Text- und Sprachinteraktion innerhalb einer Unterhaltung umschalten, wobei der bisherige Kontext erhalten werden soll. Nach dem Gespräch werden Transkript und Zusammenfassung gespeichert und lassen sich wie gewöhnliche Textchats erneut aufrufen und weiterführen.
Video: Anthropic
Für zahlende Nutzer:innen bietet der Voice-Modus zusätzliche Funktionen: Wer ein kostenpflichtiges Claude-Abo besitzt, kann per Sprache auf Inhalte aus Google Kalender und Gmail zugreifen. Die Integration von Google Docs steht nur Enterprise-Kunden zur Verfügung.
Nur fünf Stimmen, um Ähnlichkeiten zu vermeiden
Anthropic betont, dass der Voice-Modus (wie auch der Rest der Claude-Familie) mit besonderem Augenmerk auf Sicherheit entwickelt wurde. Die Auswahl der Stimmen ist auf eine feste Auswahl beschränkt, um personalisierte Stimmimitationen zu vermeiden. Claude soll keine existierenden Sprachmuster oder Personen nachahmen, sondern generiert alle Inhalte eigenständig. OpenAI musste anfangs eine Stimme zurückziehen, weil sie jener von Scarlett Johansson aus dem Film "Her" angeblich zu ähnlich klang.
Anthropic empfiehlt eine ruhige Umgebung und normale Sprechgeschwindigkeit für optimale Erkennung. Für komplexe Anliegen sei es hilfreich, diese in kleinere Fragen aufzuteilen.
Kostenlose Nutzer:innen müssen mit Einschränkungen rechnen: Je nach Nutzung können 20 bis 30 Sprachnachrichten pro Sitzung möglich sein, bevor das Limit erreicht ist. Wer dieses erreicht, muss warten oder ein Upgrade durchführen. Enterprise-Administrator:innen können den Voice-Modus auf Organisationsebene deaktivieren.
Laut Anthropic soll die Verteilung in den kommenden Wochen abgeschlossen sein und dann allen Nutzer:innen zur Verfügung stehen.
OpenAI und Google haben längst vorgelegt
OpenAI hatte seinen "Advanced Voice Mode" erstmals Anfang Mai 2024 vorgestellt. Der Modus wurde zunächst in einer Alpha-Phase für ausgewählte ChatGPT-Plus-Nutzer:innen bereitgestellt, war wenige Monate darauf jedoch für alle Nutzer:innen verfügbar. Google hat ebenfalls Voice-Funktionen bereits im Mai 2024 auf seiner Entwickler:innenkonferenz Google I/O gezeigt.
Anthropic, obwohl schon seit einiger Zeit in der KI-Welt etabliert, ist also verhältnismäßig spät dran mit der Einführung einer solchen Funktion, die sich mutmaßlich hauptsächlich an Endnutzer:innen richtet. Dass sie das Feature nun überhaupt veröffentlichen, zeigt jedoch auch, dass sie sich nicht endgültig auf ihr unternehmensgerichtetes API-Geschäft verlassen möchten.
Ob sich der Invest noch lohnt? Trotz womöglich besserer Ergebnisse in KI-Benchmarks dürften für die meisten Verbraucher:innen zugängliche App-Interfaces sowie Schnittstellen wie Live-Video im Alltag relevanter sein.