Facebooks KI-Modell GSLM ist wie GPT-3 für Audio. Das System funktioniert bislang nur eingeschränkt, könnte aber langfristig mehr Menschen erreichen.
Große Sprachmodelle wie BERT, GPT-3 oder RoBERTa haben in den letzten Jahren zu zahlreichen Fortschritten in der Computerlinguistik geführt. Sie können eingegebenen Text glaubhaft fortschreiben und so Texte zu nahezu jedem Thema generieren.
Die Modelle können außerdem mit KI-Nachtraining für andere Aufgaben in der Verarbeitung natürlicher Sprache eingesetzt werden, etwa für Stimmungsanalyse, Übersetzung, Schlussfolgerungen oder Zusammenfassungen. Auch in KI-Systemen enthaltene menschliche Vorurteile können mittels Nachtraining beeinflusst werden.
Doch die riesigen Sprachmodelle haben ein Problem: Sie benötigen große Textdatensätze für das KI-Training. Das schränkt ihre Nützlichkeit auf die wenigen Sprachen weltweit ein, für die solche umfassenden Datensätze vorliegen. Für einen Großteil der weltweit gesprochenen Sprachen gibt es dagegen nur wenige Texte, die für das KI-Training verwendet werden können.
Audio-KI: Facebook setzt auf das gesprochene Wort
Facebooks KI-Abteilung versucht dieses Problem mit einem KI-System zu lösen, das statt Textblöcken gesprochene Sprache verarbeitet. „Generative Spoken Language Model“ (GSLM) verarbeitet rohe Audiodaten ohne Labels oder Text, das heißt ohne menschliche Vorsortierung.
Laut Facebook öffnet GSLM die Tür zu „einer neuen Ära textloser Sprach-KIs für potenziell jede Sprache“, sowie der Entwicklung von Modellen, die „das gesamte Spektrum der Ausdrucksfähigkeit der gesprochenen Sprache“ erfassen.
GSLM besteht aus drei Bausteinen: Ein Encoder wandelt Sprache in diskrete Einheiten um, die häufig wiederkehrende Laute in der gesprochenen Sprache darstellen. Das Sprachmodell sagt die nächste diskrete Einheit – also den nächsten Laut – auf Grundlage der früheren Einheiten vorher. Abschließend wandelt ein Decoder die Einheiten in gesprochene Sprache um. Trainiert wurde das KI-Modell mit 6.000 Stunden gesprochener Sprache etwa aus Hörbüchern.
GSLM noch nicht auf dem Niveau von GPT-3
In Tests konnte Facebook zeigen, dass GSLM tatsächlich gesprochene Sprache generieren kann, die einem geschriebenen Satz entspricht. Das Modell kann außerdem angefangene Sätze oder angefangene Wörter vollenden.
Die Ergebnisse sind jedoch nicht auf dem Niveau von OpenAIs GPT-3 Text-KI. Ob das ein grundsätzliches Problem des Ansatzes ist oder einfach noch nicht genug Trainingsdaten vorhanden sind, wird sich wohl in den nächsten Monaten klären.
Inputsatz aus Jane Austens "Mansfield Park":
Weiterführung Variante 1:
Weiterführung Variante 2:
Facebooks KI-Abteilung will als nächstes GSLM mit neuen Datensätzen trainieren, etwa von spontanen Dialogen. Die Forschenden wollen außerdem untersuchen, ob GSLM wie GPT-3 und andere Modelle als Grundlage für ein Nachtraining für weitere Aufgaben wie die Zusammenfassung gesprochener Sprache dienen kann.
Langfristig will das Team die Grundlage schaffen, KI-Modelle mit allen Sprachen der Welt zu trainieren, was eine „nahezu unendliche Sammlung potenzieller Daten zum Verständnis des menschlichen Denkens“ eröffne. GSLM gibt es auf Github. Weitere Beispiele stehen auf der GSLM-Webseite.