Meta: Neue Sprach-KI kann lachen, schreien, gähnen

Meta stellt neue Forschung zu Sprach-KI vor: Maschinell generierte Stimmen können nun weinen, lachen, gähnen oder natürlicheren Smalltalk führen.

Im vergangenen Oktober stellte Meta das Sprachmodell „Generative Spoken Language Model“ (GSLM) vor. Die Besonderheit: Anstatt wie üblich mit Text ist das KI-Modell mit undokumentierten Audiodaten selbstüberwacht trainiert.

Beim Training arbeitet sich die KI durch die Audiodaten, erkennt eigenständig Muster in ihnen und lernt, die zugrundeliegenden Laute nachzuahmen, um daraus neue Sätze zu bilden oder existierende Sätze zu vervollständigen. Aus Perspektive der Meta-Forschenden ist diese Art, Sprache zu lernen, vergleichbar mit der von Menschen.

GSML lernt Dialoge

Jetzt stellt Meta zwei Weiterentwicklungen der bei GSLM verwendeten Trainingstechnik vor, die natürlichere KI-Dialoge ermöglichen sollen. Zum einen kann Metas Sprach-KI jetzt emotionale Laute wie Lachen, Gähnen oder Weinen nachahmen - dies sei in der Kommunikation wichtig, um die Intention und den Kontext einer Aussage besser zu vermitteln.

Original neutral:

KI-generiert mit Lachen:

Original neutral:

KI-generierter Langweiler:

Original neutral:

Empfehlung

KI-Forschung

Nvidia-Forscher Jim Fan erwartet "GPT-3-Moment" für Robotik in den nächsten Jahren

KI-generiert wütend:

Das ebenfalls neu vorgestellte und auf Dialoge optimierte GSML-Modell dGSML generiert laut Meta natürlicher klingende Audio-Dialoge mittels KI-Agenten, die im Gespräch Denkpausen einlegen oder Überschneidungen in Gesprächen verarbeiten können. Die Agenten sollen so differenzierter soziale Hinweise in Sprache erkennen, die sich nicht explizit in den gewählten Wörtern wiederfinden, und sich besser an gängige Gesprächskonventionen halten können.

Trainiert wurde dGSML mit rund 2000 Stunden ungelabelter Audio-Dialoge aus dem Fisher-Datensatz, der rund 16000 englische englischsprachige Telefongespräche enthält. Der Datensatz stammt aus 2004. Die Forschenden gehen davon aus, dass sie mit höherwertigen Trainingsdaten besseres Audio generieren können.

Sprache und Gestik als Metaverse-Interface

Meta betont im Kontext der neuen Forschungsergebnisse erneut die Bedeutung Künstlicher Intelligenz fürs Metaverse: Audio-KI-Modelle wie die vorgestellten könnten in Kombination mit etwa Gestensteuerung neue Interaktionsmöglichkeiten schaffen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Das KI-Training mit Audio- statt mit Textdaten per selbstüberwachtem Lernen sehen sie dabei als wesentlichen Baustein. Forschende könnten sich von den traditionellen textbasierten Modellen lösen und "natürlichere, ansprechendere KI-Systeme der Zukunft" entwickeln.

Als Beispiel für ein unmittelbares Anwendungsszenario der jetzt vorgestellten Methoden nennen die Forschenden die direkte Synchronisierung von Videos ohne den Umweg über eine Textübersetzung, bei der emotionale Interpretationen verloren gehen können.

Mehr zum aktuellen Stand Künstlicher Intelligenz und Sprache gibt es in unserem KI-Podcast DEEP MINDS mit Sebastian Riedel von Meta AI im folgenden Video.

Weitere Audio-Beispiele der emotionalen Meta-KI gibt es auf der Projektseite, Details und Beispiele zu dGSLM gibt es hier.

Meta sammelt außerdem parallel per Videobrille audiovisuelle Daten aus der Ich-Perspektive, die helfen sollen, fortschrittliche Künstliche Intelligenz etwa für Assistenzaufgaben anhand von Alltagsbeispielen zu trainieren.

Meta: Neue Sprach-KI kann lachen, schreien, gähnen

GSML lernt Dialoge

Nvidia-Forscher Jim Fan erwartet "GPT-3-Moment" für Robotik in den nächsten Jahren

Sprache und Gestik als Metaverse-Interface

Weiterlesen über Künstliche Intelligenz:

Student of Games: Deepmind zeigt einheitlichen Lernalgorithmus für Spiele

Filme über Künstliche Intelligenz: Elf Meilensteine der KI-Filmgeschichte

Meta zeigt extrem schnellen Lernalgorithmus für Sprache, Bild und Text

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Meta: Neue Sprach-KI kann lachen, schreien, gähnen

GSML lernt Dialoge

Sprache und Gestik als Metaverse-Interface

Weiterlesen über Künstliche Intelligenz:

Artikel teilen

Bankverbindung