Skip to content

Elevenlabs stellt neue KI-Sprach-Agenten vor

Image description
Elevenlabs (Screenshot)

Kurz & Knapp

  • Elevenlabs hat seine Conversational AI auf Version 2.0 aktualisiert. Die KI-Agenten analysieren nun Gesprächszeichen wie Pausen oder Fülllaute in Echtzeit, erkennen automatisch die gesprochene Sprache und unterstützen nahtlose Interaktionen über Sprache, Text oder beides gleichzeitig.
  • Durch die Integration von Retrieval-Augmented Generation (RAG) können Agenten direkt auf unternehmensspezifische Datenbanken zugreifen, was etwa medizinischen Assistenten oder Support-Agenten detaillierte Auskünfte ermöglicht. Die Plattform erlaubt zudem automatisierte Massenanrufe und unterstützt SIP-Trunking-Systeme.
  • Für Geschäftskunden bietet Version 2.0 neue Compliance-Features: Die Plattform ist laut Elevenlabs vollständig HIPAA-konform und ermöglicht optional EU-Datenresidenz, um Datenschutzanforderungen zu erfüllen.

Elevenlabs hat Version 2.0 seiner Conversational AI vorgestellt. Die KI-Agenten können nun gleichzeitig Sprache und Text verarbeiten und sollen natürlichere Interaktionen ermöglichen.

Im Zentrum der Neuerungen steht ein neues Modell für Gesprächsverläufe, das laut Elevenlabs Gesprächszeichen wie Pausen oder Fülllaute wie "um" oder "ah" in Echtzeit analysiert. Ziel ist es, den Gesprächsfluss realistischer zu gestalten. Der Agent erkennt, wann er unterbrechen darf oder besser schweigt, etwa, wenn ein Nutzer kurz innehält, um Informationen zu prüfen oder nachzuschlagen.

Während in der Vorversion noch manuell zwischen Sprachen gewechselt werden musste, erkennt die neue Plattform automatisch die gesprochene Sprache und antwortet entsprechend. Das ermöglicht durchgängige Gespräche in mehreren Sprachen innerhalb einer einzigen Interaktion.

Gleichzeitig unterstützt das System nun auch multimodale Kommunikation: Agenten können über Sprache, Text oder beides gleichzeitig mit Nutzern interagieren. Laut Elevenlabs führt diese Fähigkeit zu flüssigeren Dialogen, insbesondere in Situationen, in denen Benutzer zwischen Sprache und Text wechseln oder beides kombinieren.

KI-Agenten mit spezifischem Unternehmenswissen

Eine weitere Kernfunktion ist die Integration von Retrieval-Augmented Generation (RAG) direkt in die Voice-Agent-Architektur. Dies ermögliche den Zugriff auf spezifische Unternehmensdatenbanken mit "minimaler Latenz und maximaler Privatsphäre", heißt es in der Ankündigung.

Als Anwendungsbeispiele nennt Elevenlabs medizinische Assistenten, die Behandlungsrichtlinien abrufen, oder Support-Agenten mit Zugriff auf aktuelle Produktinformationen.

Laut Elevenlabs ermöglicht eine einheitliche Agentendefinition, dass Dialogverhalten, Wissenszugriff und Kommunikationskanäle zentral gesteuert werden können. Dadurch lassen sich Kundenserviceprozesse leichter automatisieren und die Nutzererfahrung verbessern.

Mit dem neuen Feature "Batch Calling" können Unternehmen automatisierte Massenanrufe durchführen – etwa für Warnmeldungen, Umfragen oder personalisierte Nachrichten. Die Plattform unterstützt eingehende und ausgehende Anrufe sowie die vollständige Integration in SIP-Trunking-Systeme.

Relevant für Unternehmenskunden dürften die neuen Compliance-Features sein. Version 2.0 ist laut Elevenlabs vollständig HIPAA-konform, was den Einsatz im Gesundheitswesen ermöglicht. Zusätzlich bietet das Unternehmen optional eine EU-Datenresidenz an, um Datensouveränitäts-Anforderungen zu erfüllen.

Source: Elevenlabs

Verpassen Sie keine
aktuellen KI‑Einblicke.

  • Unabhängiger Journalismus, der Sie auf dem Laufenden hält.
  • Zugang zum Magazinarchiv und zu den Community‑Kommentaren.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren