Inhalt
summary Zusammenfassung

Elevenlabs hat Version 2.0 seiner Conversational AI vorgestellt. Die KI-Agenten können nun gleichzeitig Sprache und Text verarbeiten und sollen natürlichere Interaktionen ermöglichen.

Anzeige

Im Zentrum der Neuerungen steht ein neues Modell für Gesprächsverläufe, das laut Elevenlabs Gesprächszeichen wie Pausen oder Fülllaute wie "um" oder "ah" in Echtzeit analysiert. Ziel ist es, den Gesprächsfluss realistischer zu gestalten. Der Agent erkennt, wann er unterbrechen darf oder besser schweigt, etwa, wenn ein Nutzer kurz innehält, um Informationen zu prüfen oder nachzuschlagen.

Während in der Vorversion noch manuell zwischen Sprachen gewechselt werden musste, erkennt die neue Plattform automatisch die gesprochene Sprache und antwortet entsprechend. Das ermöglicht durchgängige Gespräche in mehreren Sprachen innerhalb einer einzigen Interaktion.

Gleichzeitig unterstützt das System nun auch multimodale Kommunikation: Agenten können über Sprache, Text oder beides gleichzeitig mit Nutzern interagieren. Laut Elevenlabs führt diese Fähigkeit zu flüssigeren Dialogen, insbesondere in Situationen, in denen Benutzer zwischen Sprache und Text wechseln oder beides kombinieren.

Anzeige
Anzeige

KI-Agenten mit spezifischem Unternehmenswissen

Eine weitere Kernfunktion ist die Integration von Retrieval-Augmented Generation (RAG) direkt in die Voice-Agent-Architektur. Dies ermögliche den Zugriff auf spezifische Unternehmensdatenbanken mit "minimaler Latenz und maximaler Privatsphäre", heißt es in der Ankündigung.

Als Anwendungsbeispiele nennt Elevenlabs medizinische Assistenten, die Behandlungsrichtlinien abrufen, oder Support-Agenten mit Zugriff auf aktuelle Produktinformationen.

Laut Elevenlabs ermöglicht eine einheitliche Agentendefinition, dass Dialogverhalten, Wissenszugriff und Kommunikationskanäle zentral gesteuert werden können. Dadurch lassen sich Kundenserviceprozesse leichter automatisieren und die Nutzererfahrung verbessern.

Mit dem neuen Feature "Batch Calling" können Unternehmen automatisierte Massenanrufe durchführen – etwa für Warnmeldungen, Umfragen oder personalisierte Nachrichten. Die Plattform unterstützt eingehende und ausgehende Anrufe sowie die vollständige Integration in SIP-Trunking-Systeme.

Relevant für Unternehmenskunden dürften die neuen Compliance-Features sein. Version 2.0 ist laut Elevenlabs vollständig HIPAA-konform, was den Einsatz im Gesundheitswesen ermöglicht. Zusätzlich bietet das Unternehmen optional eine EU-Datenresidenz an, um Datensouveränitäts-Anforderungen zu erfüllen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Elevenlabs hat seine Conversational AI auf Version 2.0 aktualisiert. Die KI-Agenten analysieren nun Gesprächszeichen wie Pausen oder Fülllaute in Echtzeit, erkennen automatisch die gesprochene Sprache und unterstützen nahtlose Interaktionen über Sprache, Text oder beides gleichzeitig.
  • Durch die Integration von Retrieval-Augmented Generation (RAG) können Agenten direkt auf unternehmensspezifische Datenbanken zugreifen, was etwa medizinischen Assistenten oder Support-Agenten detaillierte Auskünfte ermöglicht. Die Plattform erlaubt zudem automatisierte Massenanrufe und unterstützt SIP-Trunking-Systeme.
  • Für Geschäftskunden bietet Version 2.0 neue Compliance-Features: Die Plattform ist laut Elevenlabs vollständig HIPAA-konform und ermöglicht optional EU-Datenresidenz, um Datenschutzanforderungen zu erfüllen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!