Anthropic nutzt Elevenlabs für die Sprachausgabe von Claude

31. Mai 2025

Anthropic

Update vom 31. Mai 2025:

Programmierer Simon Willison hat entdeckt, dass der KI-Anbieter Anthropic den Audio-Dienstleister Elevenlabs in seinen Geschäftsbedingungen als Subunternehmer für Text-zu-Sprache aufführt. Das deutet darauf hin, dass Anthropic – anders als OpenAI oder Google – entweder nicht selbst mit Audio trainiert hat oder damit keine ausreichende Qualität erreicht. Für die Sprachausgabe setzt Anthropic stattdessen auf die Technologie von Elevenlabs, das gerade eine neue Technologie für natürlichere KI-Gespräche vorgestellt hat.

Ursprünglicher Artikel vom 28. Mai 2025:

Ein Jahr nach der Konkurrenz kann Claude jetzt auch endlich reden

Anthropic rollt einen neuen Voice-Modus für seine mobilen Claude-Apps aus. Nutzer:innen können mit dem KI-Chatbot jetzt auch gesprochene Konversationen führen, zunächst jedoch nur auf Englisch

Anthropics Voice-Modus soll die Nutzung von Claude erleichtern, wenn man gerade keine Hände frei hat – etwa beim Kochen, Sport oder unterwegs. Die Sprachfunktion ist über ein neues Wellenform-Symbol neben dem Mikrofon in der Texteingabe erreichbar. Nutzer:innen können aus fünf verschiedenen Stimmen wählen.

Benutzeroberfläche: Antwortfeld — Der Voice-Mode ist neben der reinen Spracheingabe zu finden. Bei letzterer antwortet Claude in Textform. | Bild: Anthropic

Das Feature basiert standardmäßig auf dem kürzlich eingeführten Modell Claude Sonnet 4. Während Claude spricht, werden die wichtigsten Punkte der Antwort in Echtzeit auf dem Bildschirm eingeblendet.

Im Voice-Modus können Nutzer:innen zwischen Text- und Sprachinteraktion innerhalb einer Unterhaltung umschalten, wobei der bisherige Kontext erhalten werden soll. Nach dem Gespräch werden Transkript und Zusammenfassung gespeichert und lassen sich wie gewöhnliche Textchats erneut aufrufen und weiterführen.

Video: Anthropic

Für zahlende Nutzer:innen bietet der Voice-Modus zusätzliche Funktionen: Wer ein kostenpflichtiges Claude-Abo besitzt, kann per Sprache auf Inhalte aus Google Kalender und Gmail zugreifen. Die Integration von Google Docs steht nur Enterprise-Kunden zur Verfügung.

Nur fünf Stimmen, um Ähnlichkeiten zu vermeiden

Anthropic betont, dass der Voice-Modus (wie auch der Rest der Claude-Familie) mit besonderem Augenmerk auf Sicherheit entwickelt wurde. Die Auswahl der Stimmen ist auf eine feste Auswahl beschränkt, um personalisierte Stimmimitationen zu vermeiden. Claude soll keine existierenden Sprachmuster oder Personen nachahmen, sondern generiert alle Inhalte eigenständig. OpenAI musste anfangs eine Stimme zurückziehen, weil sie jener von Scarlett Johansson aus dem Film "Her" angeblich zu ähnlich klang.

Anthropic empfiehlt eine ruhige Umgebung und normale Sprechgeschwindigkeit für optimale Erkennung. Für komplexe Anliegen sei es hilfreich, diese in kleinere Fragen aufzuteilen.

Kostenlose Nutzer:innen müssen mit Einschränkungen rechnen: Je nach Nutzung können 20 bis 30 Sprachnachrichten pro Sitzung möglich sein, bevor das Limit erreicht ist. Wer dieses erreicht, muss warten oder ein Upgrade durchführen. Enterprise-Administrator:innen können den Voice-Modus auf Organisationsebene deaktivieren.

Laut Anthropic soll die Verteilung in den kommenden Wochen abgeschlossen sein und dann allen Nutzer:innen zur Verfügung stehen.

OpenAI und Google haben längst vorgelegt

OpenAI hatte seinen "Advanced Voice Mode" erstmals Anfang Mai 2024 vorgestellt. Der Modus wurde zunächst in einer Alpha-Phase für ausgewählte ChatGPT-Plus-Nutzer:innen bereitgestellt, war wenige Monate darauf jedoch für alle Nutzer:innen verfügbar. Google hat ebenfalls Voice-Funktionen bereits im Mai 2024 auf seiner Entwickler:innenkonferenz Google I/O gezeigt.

Anthropic, obwohl schon seit einiger Zeit in der KI-Welt etabliert, ist also verhältnismäßig spät dran mit der Einführung einer solchen Funktion, die sich mutmaßlich hauptsächlich an Endnutzer:innen richtet. Dass sie das Feature nun überhaupt veröffentlichen, zeigt jedoch auch, dass sie sich nicht endgültig auf ihr unternehmensgerichtetes API-Geschäft verlassen möchten.

Ob sich der Invest noch lohnt? Trotz womöglich besserer Ergebnisse in KI-Benchmarks dürften für die meisten Verbraucher:innen zugängliche App-Interfaces sowie Schnittstellen wie Live-Video im Alltag relevanter sein.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren