Inhalt
summary Zusammenfassung

Anthropic rollt einen neuen Voice-Modus für seine mobilen Claude-Apps aus. Nutzer:innen können mit dem KI-Chatbot jetzt auch gesprochene Konversationen führen, zunächst jedoch nur auf Englisch

Anzeige

Anthropics Voice-Modus soll die Nutzung von Claude erleichtern, wenn man gerade keine Hände frei hat – etwa beim Kochen, Sport oder unterwegs. Die Sprachfunktion ist über ein neues Wellenform-Symbol neben dem Mikrofon in der Texteingabe erreichbar. Nutzer:innen können aus fünf verschiedenen Stimmen wählen.

Benutzeroberfläche: Antwortfeld
Der Voice-Mode ist neben der reinen Spracheingabe zu finden. Bei letzterer antwortet Claude in Textform. | Bild: Anthropic

Das Feature basiert standardmäßig auf dem kürzlich eingeführten Modell Claude Sonnet 4. Während Claude spricht, werden die wichtigsten Punkte der Antwort in Echtzeit auf dem Bildschirm eingeblendet.

Im Voice-Modus können Nutzer:innen zwischen Text- und Sprachinteraktion innerhalb einer Unterhaltung umschalten, wobei der bisherige Kontext erhalten werden soll. Nach dem Gespräch werden Transkript und Zusammenfassung gespeichert und lassen sich wie gewöhnliche Textchats erneut aufrufen und weiterführen.

Anzeige
Anzeige

Video: Anthropic

Für zahlende Nutzer:innen bietet der Voice-Modus zusätzliche Funktionen: Wer ein kostenpflichtiges Claude-Abo besitzt, kann per Sprache auf Inhalte aus Google Kalender und Gmail zugreifen. Die Integration von Google Docs steht nur Enterprise-Kunden zur Verfügung.

Nur fünf Stimmen, um Ähnlichkeiten zu vermeiden

Anthropic betont, dass der Voice-Modus (wie auch der Rest der Claude-Familie) mit besonderem Augenmerk auf Sicherheit entwickelt wurde. Die Auswahl der Stimmen ist auf eine feste Auswahl beschränkt, um personalisierte Stimmimitationen zu vermeiden. Claude soll keine existierenden Sprachmuster oder Personen nachahmen, sondern generiert alle Inhalte eigenständig. OpenAI musste anfangs eine Stimme zurückziehen, weil sie jener von Scarlett Johansson aus dem Film "Her" angeblich zu ähnlich klang.

Anthropic empfiehlt eine ruhige Umgebung und normale Sprechgeschwindigkeit für optimale Erkennung. Für komplexe Anliegen sei es hilfreich, diese in kleinere Fragen aufzuteilen.

Kostenlose Nutzer:innen müssen mit Einschränkungen rechnen: Je nach Nutzung können 20 bis 30 Sprachnachrichten pro Sitzung möglich sein, bevor das Limit erreicht ist. Wer dieses erreicht, muss warten oder ein Upgrade durchführen. Enterprise-Administrator:innen können den Voice-Modus auf Organisationsebene deaktivieren.

Empfehlung

Laut Anthropic soll die Verteilung in den kommenden Wochen abgeschlossen sein und dann allen Nutzer:innen zur Verfügung stehen.

OpenAI und Google haben längst vorgelegt

OpenAI hatte seinen "Advanced Voice Mode" erstmals Anfang Mai 2024 vorgestellt. Der Modus wurde zunächst in einer Alpha-Phase für ausgewählte ChatGPT-Plus-Nutzer:innen bereitgestellt, war wenige Monate darauf jedoch für alle Nutzer:innen verfügbar. Google hat ebenfalls Voice-Funktionen bereits im Mai 2024 auf seiner Entwickler:innenkonferenz Google I/O gezeigt.

Anthropic, obwohl schon seit einiger Zeit in der KI-Welt etabliert, ist also verhältnismäßig spät dran mit der Einführung einer solchen Funktion, die sich mutmaßlich hauptsächlich an Endnutzer:innen richtet. Dass sie das Feature nun überhaupt veröffentlichen, zeigt jedoch auch, dass sie sich nicht endgültig auf ihr unternehmensgerichtetes API-Geschäft verlassen möchten.

Ob sich der Invest noch lohnt? Trotz womöglich besserer Ergebnisse in KI-Benchmarks dürften für die meisten Verbraucher:innen zugängliche App-Interfaces sowie Schnittstellen wie Live-Video im Alltag relevanter sein.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Anthropic führt einen Voice-Modus für die mobilen Claude-Apps ein, mit dem Nutzer:innen auf Englisch gesprochene Gespräche mit dem KI-Chatbot führen können. Die Funktion ist zunächst auf fünf festgelegte Stimmen begrenzt.
  • Im Voice-Modus können Nutzer:innen nahtlos zwischen Sprache und Text wechseln, wobei der Gesprächskontext erhalten bleibt. Transkripte und Zusammenfassungen werden gespeichert und sind wie normale Chats weiter nutzbar.
  • Für kostenlose Accounts gibt es ein Limit von 20 bis 30 Sprachnachrichten pro Sitzung, während zahlende Nutzer:innen etwa auf Google-Kalender und Gmail per Sprache zugreifen können.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!