Das kalifornische Start-up Sesame AI setzt auf gewollte Unvollkommenheiten in der Sprachausgabe. Ihr neues Modell soll ein erster Schritt zu authentischeren Dialogen und einer "Voice Presence" von Stimm-KIs sein.
Ersten Testberichten zufolge besticht Sesame vor allem durch Feinheiten wie Mikropausen, Betonungen und Lachen in den Dialogen. In einer Interaktion reagierte Sesames Avatarin Maya in Echtzeit auf ein plötzliches Kichern des Nutzers mit der Frage "Warum kicherst du?". - ein Zeichen für emotionale Aufmerksamkeit.
Auch menschliche Gewohnheiten wie Selbstkorrekturen mitten im Satz, Entschuldigungen für Unterbrechungen und Füllwörter wie "Ähm" werden vom System gezielt eingesetzt. Techradar hebt diese gewollten "Unzulänglichkeiten" positiv hervor, im Gegensatz zum polierten Corporate-Ton von ChatGPT oder Gemini.
In simulierten Anwendungen wie Gesprächen über Arbeitssorgen oder Partyplanungen antwortete und fragte das System situationsgerecht, statt auf Standardsätze zurückzugreifen.
Sesame AI nutzt semantische und akustische Token
Ein Paper gibt es noch nicht, aber der Blogeintrag gibt einen kleinen Einblick in die Architektur. Das CSM von Sesame basiert auf einer zweigeteilten Transformer-Architektur: Einem Backbone-Transformer (1-8 Milliarden Parameter) für die Basisverarbeitung und einem kleineren Decoder (100-300 Millionen Parameter) für die Audiogenerierung.
Die Sprachverarbeitung erfolgt über zwei Arten von Tokens: semantische Tokens für linguistische Eigenschaften und Phonetik und akustische Tokens für Klangeigenschaften wie Stimmlage und Betonung. Um das Training zu optimieren, wird der Audio-Decoder nur auf einem Sechzehntel der Audio-Frames trainiert, während die semantische Verarbeitung alle Daten verwendet.
Das Training umfasste eine Million Stunden englischsprachiger Audiodaten aus fünf Epochen. Das System verarbeitet Sequenzen von bis zu 2048 Tokens (etwa zwei Minuten Audio) in einer End-to-End-Architektur. Diese technische Umsetzung unterscheidet sich von klassischen Text-to-Speech-Systemen durch die integrierte Verarbeitung von Text und Audio.
Welches Sprachmodell hinter der Stimme steckt, erklärt Sesame nicht direkt im Blogbeitrag. Auf Nachfrage erklärt die Demo-Stimme jedoch, dass es sich um eine 27 Milliarden Parameter umfassende Version von Googles Open-Source-LLM Gemma handelt.
Kaum Unterschiede zwischen Mensch und KI erkannt
In Blindtests mit Sesame erkannten die Probanden bei kurzen Gesprächsausschnitten keinen Unterschied zwischen CSM und echten Menschen. Bei längeren Dialogen zeigten sich jedoch noch Schwächen wie gelegentliche unnatürliche Sprechpausen und Audioartefakte.
Um die Leistung des Modells zu messen, entwickelte Sesame eigene phonetische Benchmarks. In Hörversuchen beurteilten die Testpersonen die generierte Sprache ohne Kontext als gleichwertig mit den realen Aufnahmen, mit Kontext bevorzugten sie jedoch immer noch das Original.

Wichtige Modellkomponenten sollen Open-Source werden
Sesame plant, wichtige Komponenten seiner Forschung als Open Source unter der Apache 2.0-Lizenz zur Verfügung zu stellen. In den kommenden Monaten soll das Modell sowohl in der Größe als auch im Trainingsumfang weiter skaliert werden. Zudem ist eine Erweiterung auf über 20 Sprachen geplant.
Ein besonderer Fokus liegt dabei auf der Integration vortrainierter Sprachmodelle und der Entwicklung voll duplexfähiger Systeme, die Gesprächsdynamiken wie Sprecher:innenwechsel, Pausen und Tempo direkt aus den Daten lernen können. Diese Entwicklung würde grundlegende Änderungen in der gesamten Verarbeitungskette erfordern, von der Datenkuration bis hin zu Post-Trainingsmethoden.
"Die Entwicklung eines digitalen Begleiters mit Sprachpräsenz ist nicht einfach, aber wir machen stetige Fortschritte an mehreren Fronten, einschließlich Persönlichkeit, Gedächtnis, Ausdrucksfähigkeit und Angemessenheit", resümieren die Entwickler:innen.
Sesame AI wurde von einem Team um den ehemaligen Oculus-CTO Brendan Iribe gegründet. In einer ersten Series-A-Finanzierungsrunde konnte das Startup namhafte Investoren gewinnen, angeführt von Andreessen Horowitz. Eine Demo ist verfügbar.
Welchen Einfluss natürliche KI-Stimmen auf die Akzeptanz von Assistenten haben können, hat der Hype um den Advanced Voice Mode von ChatGPT gezeigt. Gleichzeitig dürften sich Sprachassistenten mit LLM generell immer mehr durchsetzen, wie die Veröffentlichung von Amazons neuer Alexa+ vermuten lässt.