Inhalt
summary Zusammenfassung

Das Fundamental AI Research (FAIR) Team von Meta hat mehrere neue spezialisierte KI-Modelle veröffentlicht. Eines davon ist Spirit LM, ein multimodales Sprachmodell, das Text und Sprache fließend integrieren kann.

Anzeige

Ähnlich geht OpenAI bei GPT-4o und dem Advanced Voice Mode vor. Das zu Spirit LM zugehörige Paper erschien bereits im Februar, nun liefert Meta den passenden Code und Modellgewichte zum kostenlosen Download dazu.

Das Modell basiert auf einem vortrainierten Textsprachmodell, das durch kontinuierliches Training mit Text- und Spracheinheiten auf die Sprachmodalität erweitert wurde. Dabei werden die Sprach- und Textsequenzen als ein einziger Satz von Token kombiniert und mithilfe einer Methode auf Wortebene verschachtelt. Dafür nutzen die Forscher einen kleinen, automatisch kuratierten Parallel-Korpus aus Sprache und Text.

Version mit und ohne Emotionen

Spirit LM gibt es in zwei Versionen: Das Basismodell verwendet semantische Spracheinheiten, während die expressive Version zusätzlich Tonhöhen- und Stileinheiten modelliert, um Informationen über Betonung und Emotionen zu erfassen. Das resultierende Modell zeigt sowohl die semantischen Fähigkeiten von Sprachmodellen als auch die expressiven Fähigkeiten von Stimmmodellen.

Anzeige
Anzeige

Dank der kombinierten Text-Sprach-Architektur ist Spirit LM in der Lage, verschiedene Aufgaben zu bewältigen: Es kann gesprochene Sprache verschriftlichen, geschriebenen Text vorlesen und gesprochene Äußerungen nach Inhalt klassifizieren. Zudem ermöglicht der multimodale Ansatz modalitätsübergreifende Anwendungen, also beispielsweise die direkte Umsetzung von geschriebenem Text in Sprache und umgekehrt.

Video: Meta

Die Forscher:innen konnten außerdem zeigen, dass Spirit LM neue Aufgaben im Few-Shot-Verfahren erlernen kann - und das sowohl innerhalb einer Modalität als auch modalitätsübergreifend. Dazu werden dem Modell nur wenige Beispiele präsentiert.

Durch die Kombination semantischer, prosodischer und stilistischer Informationen erzeugt insbesondere Spirit LM Expressive ausdrucksstarke Sprachausgaben. In Experimenten konnten die Wissenschaftler:innen nachweisen, dass das Modell die Stimmung von Text- und Spracheingaben in der generierten Ausgabe erhalten kann - eine Fähigkeit, die bisherigen Sprachmodellen oft fehlt.

Weitere KI-Neuigkeiten vom FAIR-Team

Neben Spirit LM umfassen die KI-Neuigkeiten von Meta unter anderem ein Update des Segment-Anything-Modells zur Bildsegmentierung, eine Lösung zur Beschleunigung großer Sprachmodelle namens Layer Skip sowie Fortschritte beim effizienten Training mehrsprachiger Modelle mit Meta Lingua. Außerdem stellte das Unternehmen neue Forschungsergebnisse zur Sicherheit von Post-Quanten-Kryptographie, KI-gestützter Materialforschung und Verbesserung von Satzrepräsentationen vor.

Empfehlung

Wie immer begleitet Meta eine solche Ankündigung mit einer Erklärung, nicht nur eine fortschrittliche KI entwickeln zu wollen, sondern auch gleichzeitig Open Science zu fördern. Erst vor wenigen Wochen stand das Unternehmen in der Kritik, den Open-Source-Begriff nach eigenen Vorstellungen umdeuten zu wollen.

Mit Llama 3.2 hatte Meta kürzlich seine ersten Sprachmodelle mit Bildverständnis vorgestellt und umgehend in seine KI-Plattformen integriert. Ein Sprachmodus wie bei OpenAIs Advanced Voice Mode wäre ein logischer nächster Schritt. Denkbar wäre also, dass die Erkenntnisse von Spirit LM in ein zukünftiges Llama-Modell einfließen, um einen echten "omnimodalen" Konkurrenten zu GPT-4o anbieten zu können.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Metas Fundamental AI Research (FAIR) Team veröffentlicht mehrere spezialisierte KI-Modelle, allen voran Spirit LM, das Text und Sprache nahtlos verbindet. Das Modell gibt es in einer expressiven Version, die Betonung und Emotionen erfassen kann.
  • Spirit LM kann dank seiner kombinierten Text-Sprach-Architektur vielfältige Aufgaben bewältigen, wie automatische Spracherkennung, Textvorlesung und modalitätsübergreifende Anwendungen. Es kann neue Aufgaben im Few-Shot-Verfahren erlernen.
  • Neben Spirit LM umfassen Metas neueste KI-Entwicklungen ein Update für das Bildsegmentierungsmodell Segment-Anything, eine Lösung zur Beschleunigung großer Sprachmodelle namens Layer Skip sowie Fortschritte beim Training mehrsprachiger Modelle mit Meta Lingua.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!