Das Fundamental AI Research (FAIR) Team von Meta hat mehrere neue spezialisierte KI-Modelle veröffentlicht. Eines davon ist Spirit LM, ein multimodales Sprachmodell, das Text und Sprache fließend integrieren kann.
Ähnlich geht OpenAI bei GPT-4o und dem Advanced Voice Mode vor. Das zu Spirit LM zugehörige Paper erschien bereits im Februar, nun liefert Meta den passenden Code und Modellgewichte zum kostenlosen Download dazu.
Das Modell basiert auf einem vortrainierten Textsprachmodell, das durch kontinuierliches Training mit Text- und Spracheinheiten auf die Sprachmodalität erweitert wurde. Dabei werden die Sprach- und Textsequenzen als ein einziger Satz von Token kombiniert und mithilfe einer Methode auf Wortebene verschachtelt. Dafür nutzen die Forscher einen kleinen, automatisch kuratierten Parallel-Korpus aus Sprache und Text.
Version mit und ohne Emotionen
Spirit LM gibt es in zwei Versionen: Das Basismodell verwendet semantische Spracheinheiten, während die expressive Version zusätzlich Tonhöhen- und Stileinheiten modelliert, um Informationen über Betonung und Emotionen zu erfassen. Das resultierende Modell zeigt sowohl die semantischen Fähigkeiten von Sprachmodellen als auch die expressiven Fähigkeiten von Stimmmodellen.
Dank der kombinierten Text-Sprach-Architektur ist Spirit LM in der Lage, verschiedene Aufgaben zu bewältigen: Es kann gesprochene Sprache verschriftlichen, geschriebenen Text vorlesen und gesprochene Äußerungen nach Inhalt klassifizieren. Zudem ermöglicht der multimodale Ansatz modalitätsübergreifende Anwendungen, also beispielsweise die direkte Umsetzung von geschriebenem Text in Sprache und umgekehrt.
Die Forscher:innen konnten außerdem zeigen, dass Spirit LM neue Aufgaben im Few-Shot-Verfahren erlernen kann - und das sowohl innerhalb einer Modalität als auch modalitätsübergreifend. Dazu werden dem Modell nur wenige Beispiele präsentiert.
Durch die Kombination semantischer, prosodischer und stilistischer Informationen erzeugt insbesondere Spirit LM Expressive ausdrucksstarke Sprachausgaben. In Experimenten konnten die Wissenschaftler:innen nachweisen, dass das Modell die Stimmung von Text- und Spracheingaben in der generierten Ausgabe erhalten kann - eine Fähigkeit, die bisherigen Sprachmodellen oft fehlt.
Weitere KI-Neuigkeiten vom FAIR-Team
Neben Spirit LM umfassen die KI-Neuigkeiten von Meta unter anderem ein Update des Segment-Anything-Modells zur Bildsegmentierung, eine Lösung zur Beschleunigung großer Sprachmodelle namens Layer Skip sowie Fortschritte beim effizienten Training mehrsprachiger Modelle mit Meta Lingua. Außerdem stellte das Unternehmen neue Forschungsergebnisse zur Sicherheit von Post-Quanten-Kryptographie, KI-gestützter Materialforschung und Verbesserung von Satzrepräsentationen vor.
Wie immer begleitet Meta eine solche Ankündigung mit einer Erklärung, nicht nur eine fortschrittliche KI entwickeln zu wollen, sondern auch gleichzeitig Open Science zu fördern. Erst vor wenigen Wochen stand das Unternehmen in der Kritik, den Open-Source-Begriff nach eigenen Vorstellungen umdeuten zu wollen.
Mit Llama 3.2 hatte Meta kürzlich seine ersten Sprachmodelle mit Bildverständnis vorgestellt und umgehend in seine KI-Plattformen integriert. Ein Sprachmodus wie bei OpenAIs Advanced Voice Mode wäre ein logischer nächster Schritt. Denkbar wäre also, dass die Erkenntnisse von Spirit LM in ein zukünftiges Llama-Modell einfließen, um einen echten "omnimodalen" Konkurrenten zu GPT-4o anbieten zu können.