Inhalt
summary Zusammenfassung

Das kalifornische Start-up Sesame AI setzt auf gewollte Unvollkommenheiten in der Sprachausgabe. Ihr neues Modell soll ein erster Schritt zu authentischeren Dialogen und einer "Voice Presence" von Stimm-KIs sein.

Anzeige

Ersten Testberichten zufolge besticht Sesame vor allem durch Feinheiten wie Mikropausen, Betonungen und Lachen in den Dialogen. In einer Interaktion reagierte Sesames Avatarin Maya in Echtzeit auf ein plötzliches Kichern des Nutzers mit der Frage "Warum kicherst du?". - ein Zeichen für emotionale Aufmerksamkeit.

Auch menschliche Gewohnheiten wie Selbstkorrekturen mitten im Satz, Entschuldigungen für Unterbrechungen und Füllwörter wie "Ähm" werden vom System gezielt eingesetzt. Techradar hebt diese gewollten "Unzulänglichkeiten" positiv hervor, im Gegensatz zum polierten Corporate-Ton von ChatGPT oder Gemini.

In simulierten Anwendungen wie Gesprächen über Arbeitssorgen oder Partyplanungen antwortete und fragte das System situationsgerecht, statt auf Standardsätze zurückzugreifen.

Anzeige
Anzeige

Sesame AI nutzt semantische und akustische Token

Ein Paper gibt es noch nicht, aber der Blogeintrag gibt einen kleinen Einblick in die Architektur. Das CSM von Sesame basiert auf einer zweigeteilten Transformer-Architektur: Einem Backbone-Transformer (1-8 Milliarden Parameter) für die Basisverarbeitung und einem kleineren Decoder (100-300 Millionen Parameter) für die Audiogenerierung.

Die Sprachverarbeitung erfolgt über zwei Arten von Tokens: semantische Tokens für linguistische Eigenschaften und Phonetik und akustische Tokens für Klangeigenschaften wie Stimmlage und Betonung. Um das Training zu optimieren, wird der Audio-Decoder nur auf einem Sechzehntel der Audio-Frames trainiert, während die semantische Verarbeitung alle Daten verwendet.

Das Training umfasste eine Million Stunden englischsprachiger Audiodaten aus fünf Epochen. Das System verarbeitet Sequenzen von bis zu 2048 Tokens (etwa zwei Minuten Audio) in einer End-to-End-Architektur. Diese technische Umsetzung unterscheidet sich von klassischen Text-to-Speech-Systemen durch die integrierte Verarbeitung von Text und Audio.

Welches Sprachmodell hinter der Stimme steckt, erklärt Sesame nicht direkt im Blogbeitrag. Auf Nachfrage erklärt die Demo-Stimme jedoch, dass es sich um eine 27 Milliarden Parameter umfassende Version von Googles Open-Source-LLM Gemma handelt.

Kaum Unterschiede zwischen Mensch und KI erkannt

In Blindtests mit Sesame erkannten die Probanden bei kurzen Gesprächsausschnitten keinen Unterschied zwischen CSM und echten Menschen. Bei längeren Dialogen zeigten sich jedoch noch Schwächen wie gelegentliche unnatürliche Sprechpausen und Audioartefakte.

Empfehlung

Um die Leistung des Modells zu messen, entwickelte Sesame eigene phonetische Benchmarks. In Hörversuchen beurteilten die Testpersonen die generierte Sprache ohne Kontext als gleichwertig mit den realen Aufnahmen, mit Kontext bevorzugten sie jedoch immer noch das Original.

Horizontales Balkendiagramm: Vergleich der Erfolgsraten zwischen KI-Modell und menschlicher Referenz mit/ohne Kontext, farblich codiert in Türkis/Grün.
Die Präferenz der Probanden für KI-generierte Sprache erreicht nahezu menschliches Niveau. | Bild: Sesame AI

Wichtige Modellkomponenten sollen Open-Source werden

Sesame plant, wichtige Komponenten seiner Forschung als Open Source unter der Apache 2.0-Lizenz zur Verfügung zu stellen. In den kommenden Monaten soll das Modell sowohl in der Größe als auch im Trainingsumfang weiter skaliert werden. Zudem ist eine Erweiterung auf über 20 Sprachen geplant.

Ein besonderer Fokus liegt dabei auf der Integration vortrainierter Sprachmodelle und der Entwicklung voll duplexfähiger Systeme, die Gesprächsdynamiken wie Sprecher:innenwechsel, Pausen und Tempo direkt aus den Daten lernen können. Diese Entwicklung würde grundlegende Änderungen in der gesamten Verarbeitungskette erfordern, von der Datenkuration bis hin zu Post-Trainingsmethoden.

"Die Entwicklung eines digitalen Begleiters mit Sprachpräsenz ist nicht einfach, aber wir machen stetige Fortschritte an mehreren Fronten, einschließlich Persönlichkeit, Gedächtnis, Ausdrucksfähigkeit und Angemessenheit", resümieren die Entwickler:innen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Sesame AI wurde von einem Team um den ehemaligen Oculus-CTO Brendan Iribe gegründet. In einer ersten Series-A-Finanzierungsrunde konnte das Startup namhafte Investoren gewinnen, angeführt von Andreessen Horowitz. Eine Demo ist verfügbar.

Welchen Einfluss natürliche KI-Stimmen auf die Akzeptanz von Assistenten haben können, hat der Hype um den Advanced Voice Mode von ChatGPT gezeigt. Gleichzeitig dürften sich Sprachassistenten mit LLM generell immer mehr durchsetzen, wie die Veröffentlichung von Amazons neuer Alexa+ vermuten lässt.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Sesame AI, ein Start-up aus Kalifornien, entwickelt ein Sprachmodell, das durch gewollte Unvollkommenheiten wie Mikropausen, Betonungen und Lachen authentischere Dialoge ermöglichen soll.
  • Das System basiert auf einer zweigeteilten Transformer-Architektur mit semantischen und akustischen Tokens. In Blindtests erkannten Probanden bei kurzen Gesprächsausschnitten keinen Unterschied zwischen dem KI-Modell und echten Menschen.
  • Sesame plant, wichtige Komponenten ihrer Forschung als Open Source bereitzustellen und das Modell in Größe, Trainingsumfang und Sprachunterstützung zu erweitern.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!