Elevenlabs startet 11ai: Sprachassistent führt Aktionen in Arbeitstools aus

Mit 11ai erweitert Elevenlabs sein Portfolio um einen sprachgesteuerten KI-Assistenten, der direkt in digitale Arbeitsprozesse eingreift. Die Alpha-Version soll zeigen, was mit Voice-First-Technologie und API-Integrationen möglich wird.

Laut Elevenlabs liegt die Schwäche herkömmlicher Sprachassistenten darin, dass sie kaum über die reine Konversation hinauskommen und selten produktiv tätig werden. 11ai soll genau an diesem Punkt ansetzen: Die Nutzer:innen geben mündliche Anweisungen und das System führt Aktionen durch.

Video: Elevenlabs

Voice-First-Produktivität mit direkten Tool-Integrationen

Nutzer:innen können über die Weboberfläche unter 11.ai/app/eleven Anweisungen wie "Plane meinen Tag und füge meine wichtigsten Aufgaben zu Linear hinzu" oder "Nutze Perplexity, um unser heutiges Interessenten-Meeting zu recherchieren und deren kürzliche Finanzierung zusammenzufassen" geben.

In einem Werbevideo zeigt Elevenlabs eine Morgenroutine, in der 11ai in jedem Raum der Wohnung verfügbar ist – welche Hardware die Antworten gibt, lässt das Unternehmen aber offen.

Das System führt auch sequenzielle Aktionen aus und versteht Kontext zwischen verschiedenen Tools. Bei einer Kundenrecherche durchsucht 11ai verbundene Systeme, findet relevante Daten und verarbeitet diese Informationen durch CRM-Updates oder Team-Nachrichten weiter.

Vorgefertigte Integrationen und Custom-Server

Die Funktionalität basiert auf dem Model Context Protocol (MCP), das eine standardisierte API-Integration für AI-Assistenten ermöglicht. Die Conversational AI-Plattform von Elevenlabs unterstützt MCP nativ und verbindet sich dadurch mit Services wie Salesforce, HubSpot, Gmail und Zapier.

Elevenlabs bietet zum Start vorgefertigte Integrationen für Perplexity, Linear, Slack und HackerNews und Google Kalender. Weitere Integrationen sollen wöchentlich hinzukommen.

Die zugrundeliegende Elevenlabs-Conversational-AI-Plattform bietet nach Unternehmensangaben niedrige Latenz für Echtzeit-Konversationen und multimodalen Support für Voice- und Text-Interaktion.

Empfehlung

KI in der Praxis

Google stellt multimodales KI-Modell Gemini 2.0 mit Fokus auf agentische KI vor

Außerdem integriert die Plattform RAG-Funktionalität für den Zugriff auf externe Wissensdatenbanken und erkennt Sprachen automatisch für mehrsprachige Konversationen. Nutzer:innen können aus über 5.000 Stimmen wählen oder eigene Voice Clones erstellen, um die Interaktion zu personalisieren.

Panel: Experimentelle Integrationsverwaltung bei ElevenLabs mit Diensten Google Calendar, HackerNews, Linear, Perplexity und Slack. — Die Auswahl der vorgefertigten Integrationen ist noch sehr eingeschränkt, doch durch das verwendete Model Context Protocol dürfte sich das schnell ändern. | Bild: Screenshot by THE DECODER

Zusätzlich unterstützt 11ai benutzerdefinierte MCP-Server. Teams verbinden ihre internen Tools oder spezialisierte Software über eigene MCP-Server mit 11ai und erweitern so die Funktionalität in ihre spezifischen Arbeitsabläufe.

Das System arbeitet laut Elevenlabs mit einem Berechtigungsmodell, bei dem Nutzer für jede Anwendung einzeln festlegen, welche Funktionen der Sprachassistent ausführen darf.

11ai läuft als experimenteller Proof-of-Concept zunächst kostenlos in der Alpha-Phase. In dieser sammelt Elevenlabs Feedback zu Integrationen, gewünschten MCP-Servern, der Voice-Interaktion im Vergleich zu traditionellen Interfaces und neuen Funktionalitäten für tägliche Routinen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Agentische Assistenten sind kein Alleinstellungsmerkmal mehr

Mit dem Vorstoß in den Markt für handlungsfähige Sprachassistenten steht Elevenlabs in direkter Konkurrenz zu einer wachsenden Zahl ähnlicher Produkte. Perplexity hat kürzlich einen mobilen Assistant vorgestellt, der Aufgaben wie Tischreservierungen übernimmt. Amazon präsentierte mit Alexa+ ein weiterentwickeltes, agentisches Alexa, das auf Voice-First-Interaktionen setzt.

Auch Claude von Anthropic ist über das MCP-Protokoll anwendungsfähig, der Chatbot hat jedoch einen stärkeren B2B-Fokus. Erst vor kurzem erhielt Claude überhaupt einen Sprachmodus, der ebenfalls auf ElevenLabs setzt. Googles Gemini bietet zwar Sprachinteraktion, ist jedoch in puncto Handlungsfähigkeit und Toolintegration noch eingeschränkt – selbst innerhalb des eigenen Ökosystems.

Elevenlabs startet 11ai: Sprachassistent führt Aktionen in Arbeitstools aus

Voice-First-Produktivität mit direkten Tool-Integrationen

Vorgefertigte Integrationen und Custom-Server

Google stellt multimodales KI-Modell Gemini 2.0 mit Fokus auf agentische KI vor

Agentische Assistenten sind kein Alleinstellungsmerkmal mehr

ElevenLabs bringt KI-Soundeffekte mit längerer Laufzeit und nahtlosen Loops

Elevenlabs veröffentlicht neues Text-zu-Sprache-Modell v3 mit mehr Ausdrucksmöglichkeiten

Elevenlabs startet KI-Musikgenerator für kommerzielle Nutzung

OpenAI entdeckt nach Sora-App-Launch plötzlich das Urheberrecht

OpenAI launcht neues Videomodell Sora 2 mit Sound und Social-App

Laut Google Deepmind können Videomodelle wie Veo 3 Generalisten für visuelle Aufgaben werden

Elevenlabs startet 11ai: Sprachassistent führt Aktionen in Arbeitstools aus

Voice-First-Produktivität mit direkten Tool-Integrationen

Vorgefertigte Integrationen und Custom-Server

Agentische Assistenten sind kein Alleinstellungsmerkmal mehr

Artikel teilen

Bankverbindung