Google stellt eine neue Übersetzungs-KI vor, die neben weit verbreiteten auch seltene Sprachen übersetzt – derzeit sind es mehr als 100.
Online-Services von Google, DeepL und Co. übersetzen mittlerweile auf hohem Niveau - jedoch nur in den Sprachen, in denen viele Übersetzungsbeispiele existieren. Die KIs werden nämlich meist mit Satzpaaren trainiert, etwa einem deutschen Satz und seinem englischen Gegenstück. Aus vielen Beispielen kann die Künstliche Intelligenz so das Übersetzen lernen.
Eine Sprache, die seltener gesprochen wird oder von der wenig Übersetzungen in eine weit verbreitete Sprache existieren, ist daher ein Problem für eine Übersetzungs-KI: Das Trainingsmaterial fehlt. Häufig wird dennoch versucht, mit den wenigen verfügbaren Satzpaaren ein ordentliches Ergebnis zu erzielen, etwa bei Bibelübersetzungen. So entstehen seltsame Sprachblüten, die mit dem ursprünglichen Satz nicht mehr viel zu tun haben.
Die Regel ist also: Je mehr Satzpaare existieren, desto besser ist die Übersetzung.
Big Data als Lösung: Alle Sprachen in einen Topf
Google will diesem Engpass mit einem "massiv mehrsprachigen Modell" begegnen: Die KI lernt nicht zwei Sprachen, sondern wird mit mehr als 25 Milliarden Satzpaaren aus über 100 Sprachen trainiert. Die Hoffnung der Forscher ist, dass sich so die Erfolge aus der Übersetzung von Sprachen mit vielen Daten auf die mit wenigen übertragen lassen.
Dahinter steht die Idee, dass es gewisse Übersetzungsregeln gibt, die Sprachfamilien und teilweise allen Sprachen gemein sind. Eine KI, die über 100 Sprachen übersetzt, hat gute Chancen, diese Regeln zu lernen.
In einem ersten Test zeigt sich, dass die Massiv-Mehrsprachige-KI tatsächlich besser seltene Sprachen übersetzen kann. Dafür fiel ihre Übersetzungsleistung in den sonst sicher beherrschten Sprachen ab.
Der BLEU-Score beziffert die Qualität der maschinellen Übersetzung. Höher ist besser. Für die Bewertung werden die Beispiele mit menschlichen Übersetzungen verglichen. Als Vergleichswert dienen verfügbare Übersetzungs-KIs, die mit zwei Sprachen trainiert wurden. Grafik: Google
Auf dem Weg zum Babelfish dank KI-Technologie
Die Forscher trainierten im nächsten Schritt ein riesiges neuronales Netzwerk mit 50 Milliarden statt wie zuvor 400 Millionen Parametern. Zum Vergleich: Nvidias eigentlich schon gigantisches GPT-2-Projekt Megatron hat "nur" 8,3 Milliarden Parameter. Durch das umfassende Training stieg die Übersetzungsleistung für häufige und seltene Sprachen signifikant.
Gut zu erkennen: Mit mehr Parametern nimmt die Qualität der Übersetzungen weiter zu. Doch auch Googles "M4" kann bei wenigen Daten keine Wunder vollbringen. Grafik: Google
Die Google-Forscher wollen ihre Ergebnisse ausführlich auf der KI-Konferenz NeurIPS im Dezember vorstellen. Sie sehen ihren "M4"-Ansatz (Massively Multilingual, Massive Neural Machine Translation) als wichtigen Schritt hin zu einer universalen Übersetzungs-KI. Bis dahin sei aber noch viel interdisziplinäre Forschung nötig, sagen die Forscher – kein Wunder, bei über 6.500 Sprachen, die theoretisch übersetzt werden können.
Quelle: Google