ElevenLabs hat Einblicke in die Leistung seines KI-Support-Agenten gewährt. Das System bewältigt dokumentenbasierte Anfragen größtenteils erfolgreich, stößt jedoch bei komplexeren Themen schnell an seine Grenzen.
Der in die Unternehmensdokumentation integrierte KI-Agent bearbeitet nach Angaben des Start-ups rund 200 Gespräche pro Tag. Nach unternehmensinternen Auswertungen, die durch die manuelle Überprüfung von 150 Gesprächen bestätigt wurden, werden rund 80 Prozent der Nutzeranfragen erfolgreich beantwortet.
Die technische Umsetzung basiert auf mehreren Kernkomponenten: Ein detaillierter Systemprompt definiert die Rolle des Agenten als technischer Supportmitarbeiter "Alexis" und legt präzise Verhaltensregeln fest. Dazu gehören Anweisungen zur Sprachformatierung für die Text-to-Speech-Ausgabe, zum Umgang mit verschiedenen Sprachen und zur Nutzung von Weiterleitungswerkzeugen.
Die Wissensbasis umfasst eine komprimierte, aber immer noch rund 80.000 Zeichen umfassende Version der ElevenLabs-Dokumentation sowie relevante URLs. Sie wird ergänzt durch spezifische FAQ-Einträge und Klarstellungen.
Ein integriertes Evaluationssystem überwacht kontinuierlich die Performance. Es prüft mittels KI verschiedene Kriterien wie Halluzinationen (Abweichungen von der Wissensbasis), Interaktionsqualität und Lösungserfolg. Darüber hinaus kategorisiert es Anfragen nach Problemtyp und Produktkategorie und erfasst ungelöste Fragen sowie Nutzerreaktionen.
ElevenLabs Support-Agent zeigt die üblichen Schwächen generativer KI
Die Nutzungsanalyse zeigt interessante Muster: Viele Nutzer testen das System nur aus, etwa durch mehrsprachige oder fachfremde Gespräche. Trotz implementierter Schutzmaßnahmen (Guardrails) weicht das System gelegentlich von support-relevanten Themen ab.
Besonders effektiv ist der Agent bei konkreten Dokumentationsfragen, etwa zu API-Endpunkten oder Integrationsmöglichkeiten. Er zeigt aber auch deutliche Schwächen: Der Agent neigt dazu, auch auf vage Anfragen zu antworten, anstatt gezielt nachzufragen. Auch Codebeispiele können über die Sprachschnittstelle nicht sinnvoll vermittelt werden. Bei komplexeren Themen gibt das System zudem oft zu lange und unübersichtliche Listen mit Empfehlungen aus.
Weitere Einschränkungen betreffen Account-spezifische Probleme, Preisanfragen und Debugging-Anfragen, die das System überfordern. Auch wiederkehrende Verifikationsfehler kann das System nicht analysieren.
Laut ElevenLabs funktioniert der KI-Agent daher am besten bei einer klar definierten Zielgruppe mit spezifischen Dokumentationsfragen. Komplexere Anfragen wie zur Fehlerbehebung oder Preisgestaltung übersteigen derzeit noch seine Fähigkeiten und machen menschliche Unterstützung weiterhin unverzichtbar.
Interessenten können den Support-Agenten in der Dokumentation testen.