Meta will mithilfe KI-gestützter Übersetzungen Sprachbarrieren beseitigen. Ein neues System kann die primär mündliche Sprache Hokkien in Echtzeit in Englisch übersetzen.
Meta vernetzt Menschen in sozialen Netzwerken und eines Tages vielleicht im Metaverse. Dabei hat der Technik-Konzern die Sprachbarriere als Hürde ausgemacht und forscht seit Jahren an dessen Überwindung.
Direkte Sprache-zu-Sprache-Übersetzung
Jetzt stellt Meta den nächsten Schritt in der maschinellen Übersetzung hin zum Universal Speech Translator vor: Ein neues System kann die ressourcenarme und hauptsächlich mündlich überlieferte taiwanesische Sprache Hokkien in Echtzeit in Englisch und zurück übersetzen. Das System übersetzt Sprache direkt zu Sprache ohne den Umweg über Text.
Die Herausforderung lag laut Meta insbesondere in den kaum vorhandenen Trainingsdaten. Meta verwendete daher Mandarin als Brückensprache und übersetzte gesprochenes Hokkien in Mandarin-Text und dann in gesprochenes Englisch und umgekehrt. Der Rückgriff auf eine ressourcenreiche Sprache verbesserte laut Meta die Modellleistung erheblich.
Mit einem Sprachcodierer konnte Meta zusätzlich Spracheinbettungen in Hokkien in denselben semantischen Raum codieren wie andere Sprachen, um es dort dann mit gesprochenem und geschriebenem Englisch zu alignieren. Aus den Texten wiederum generierte Meta gesprochenes Englisch und erhielt so Hokkien und Englisch parallel. Meta nennt diesen Prozess "Speech Mining".
Für die Sprache-zu-Sprache-Übersetzung verwendete Meta eine Speech-to-Unit Translation (S2UT), die einen Sprachinput in akustische Einheiten in einem von Meta entwickelten Pfad übersetzt. Mit UnitY als Zwei-Pass-Decodiermechanismus generierte der Decoder im ersten Durchlauf Text in einer verwandten Sprache (Mandarin) und erstellt im zweiten Durchlauf akustische Einheiten.
Laut Meta lassen sich die erstmals für Hokkien entwickelten Methoden auf viele weitere geschriebene und ungeschriebene Sprachen übertragen. Meta veröffentlicht das System und einen großen Korpus von Speech-to-Speech-Übersetzungen als Open Source für die Entwicklung weiterer Übersetzungssysteme. Eine Hokkien-Demo ist bei Hugging Face verfügbar.
(1/3) Until now, AI translation has focused mainly on written languages. Universal Speech Translator (UST) is the 1st AI-powered speech-to-speech translation system for a primarily oral language, translating Hokkien, one of many primarily spoken languages. https://t.co/onYKQ8uoKN pic.twitter.com/Iy8MRMOypQ
— Meta AI (@MetaAI) October 19, 2022
Meta forscht seit Jahren an KI-Übersetzung
Das Hokkien-Modell kann derzeit nur einen ganzen Satz auf einmal übersetzen. Meta sieht das Modell dennoch als Schritt in eine Zukunft mit gleichzeitiger Übersetzung zwischen vielen Sprachen. Dabei setzt Meta auf selbstüberwachtes KI-Training mit großen Mengen Sprach- und Textdaten kombiniert mit Spracherkennung, Text-zu-Text-Übersetzung und Text-zu-Sprache-Synthese.
"Unsere Fortschritte auf dem Gebiet des unüberwachten Lernens zeigen, dass es möglich ist, hochwertige Speech-to-Speech-Übersetzungsmodelle ohne Labeling durch Menschen zu erstellen", schreibt Meta.
Für Meta-Chef Mark Zuckerberg ist die Universalübersetzung eine "Supermacht, von der Menschen schon immer geträumt haben": 2018 stellte Meta ein unüberwacht trainiertes KI-System für Rückübersetzungen vor, 2020 mit M2M-100 ein System, das 100 Sprachen übersetzen kann, 2021 dessen Weiterentwicklung, das Spitzenwerte im WMT2021-Benchmark für Übersetzungen erzielte.
Im Februar 2022 stellt Meta das Projekt "No Language Left Behind" vor für Echtzeituniversalübersetzungen auch von seltenen Sprachen. Im Sommer 2022 folgte dann NLLB-200, ein Modell für die Übersetzung von 200 Sprachen.
All diese KI-Übersetzungsforschung läuft bei Meta unter dem Dach des Projekts Universal Speech Translator zusammen, der zugleich die große Vision ist.