Inhalt
newsletter Newsletter

Meta stellt neue Forschung zu Sprach-KI vor: Maschinell generierte Stimmen können nun weinen, lachen, gähnen oder natürlicheren Smalltalk führen.

Anzeige

Im vergangenen Oktober stellte Meta das Sprachmodell „Generative Spoken Language Model“ (GSLM) vor. Die Besonderheit: Anstatt wie üblich mit Text ist das KI-Modell mit undokumentierten Audiodaten selbstüberwacht trainiert.

Beim Training arbeitet sich die KI durch die Audiodaten, erkennt eigenständig Muster in ihnen und lernt, die zugrundeliegenden Laute nachzuahmen, um daraus neue Sätze zu bilden oder existierende Sätze zu vervollständigen. Aus Perspektive der Meta-Forschenden ist diese Art, Sprache zu lernen, vergleichbar mit der von Menschen.

GSML lernt Dialoge

Jetzt stellt Meta zwei Weiterentwicklungen der bei GSLM verwendeten Trainingstechnik vor, die natürlichere KI-Dialoge ermöglichen sollen. Zum einen kann Metas Sprach-KI jetzt emotionale Laute wie Lachen, Gähnen oder Weinen nachahmen - dies sei in der Kommunikation wichtig, um die Intention und den Kontext einer Aussage besser zu vermitteln.

Anzeige
Anzeige

Original neutral:

KI-generiert mit Lachen:

Original neutral:

KI-generierter Langweiler:

Original neutral:

Empfehlung

KI-generiert wütend:

Das ebenfalls neu vorgestellte und auf Dialoge optimierte GSML-Modell dGSML generiert laut Meta natürlicher klingende Audio-Dialoge mittels KI-Agenten, die im Gespräch Denkpausen einlegen oder Überschneidungen in Gesprächen verarbeiten können. Die Agenten sollen so differenzierter soziale Hinweise in Sprache erkennen, die sich nicht explizit in den gewählten Wörtern wiederfinden, und sich besser an gängige Gesprächskonventionen halten können.

Trainiert wurde dGSML mit rund 2000 Stunden ungelabelter Audio-Dialoge aus dem Fisher-Datensatz, der rund 16000 englische englischsprachige Telefongespräche enthält. Der Datensatz stammt aus 2004. Die Forschenden gehen davon aus, dass sie mit höherwertigen Trainingsdaten besseres Audio generieren können.

Sprache und Gestik als Metaverse-Interface

Meta betont im Kontext der neuen Forschungsergebnisse erneut die Bedeutung Künstlicher Intelligenz fürs Metaverse: Audio-KI-Modelle wie die vorgestellten könnten in Kombination mit etwa Gestensteuerung neue Interaktionsmöglichkeiten schaffen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Das KI-Training mit Audio- statt mit Textdaten per selbstüberwachtem Lernen sehen sie dabei als wesentlichen Baustein. Forschende könnten sich von den traditionellen textbasierten Modellen lösen und "natürlichere, ansprechendere KI-Systeme der Zukunft" entwickeln.

Als Beispiel für ein unmittelbares Anwendungsszenario der jetzt vorgestellten Methoden nennen die Forschenden die direkte Synchronisierung von Videos ohne den Umweg über eine Textübersetzung, bei der emotionale Interpretationen verloren gehen können.

Mehr zum aktuellen Stand Künstlicher Intelligenz und Sprache gibt es in unserem KI-Podcast DEEP MINDS mit Sebastian Riedel von Meta AI im folgenden Video.

Weitere Audio-Beispiele der emotionalen Meta-KI gibt es auf der Projektseite, Details und Beispiele zu dGSLM gibt es hier.

Meta sammelt außerdem parallel per Videobrille audiovisuelle Daten aus der Ich-Perspektive, die helfen sollen, fortschrittliche Künstliche Intelligenz etwa für Assistenzaufgaben anhand von Alltagsbeispielen zu trainieren.

Weiterlesen über Künstliche Intelligenz:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!