Forschern ist es gelungen, eine ausgestorbene Sprache mit KI zu übersetzen. Alles was sie dafür benötigten, war eine verwandte Sprache.
KI-Übersetzungen sind alltäglich geworden: Google Assistant hilft im Urlaub mit Echtzeitübersetzungen, DeepL überträgt ganze Texte in neue Sprachen und YouTube bietet automatisch übersetzte Untertitel.
Der Erfolg dieser KI-Übersetzer beruht vor allem auf großen Datenmengen. Sie werden mit unzähligen Texten trainiert und mit der Zeit immer besser.
Daraus ergibt sich umgekehrt: Wenn wenig Trainingsmaterial verfügbar ist, versagt die KI-Übersetzung. Hochwertige Übersetzungen selten gesprochener Sprachen sind daher noch immer die Domäne menschlicher Übersetzer. Auch bei schon ausgestorbenen Sprachen mangelt es an Trainingsmaterial.
Jetzt ist es Forschern gelungen, eine ausgestorbene Sprache mit KI zu übersetzen, indem sie den Algorithmus mit einer verwandten Sprache vortrainierten.
Wörter sind nur Punkte im Raum
Wir werfen zunächst einen Blick auf die übliche Methode der KI-Übersetzung:
Grundlegend ist die Idee, dass – unabhängig der Sprache – Wörter immer ähnlich miteinander verknüpft sind. Egal ob „Auto“ oder „car“, die Wörter beschreiben ähnliche Sachverhalte oder Objekte und befinden sich häufig in der Nähe gleicher Wörter, etwa „fahren“ und „drive“.
Die KI nutzt das aus, indem sie in einer riesigen Textdatenbank nach diesen Verhältnissen sucht. So bestimmt sie, wie häufig ein Wort in der Nähe jedes anderen Wortes auftaucht. Jedem Wort wird dabei in einem Raum ein Punkt zugeordnet.
Wörter, die häufig in vergleichbaren Kontexten erscheinen, bekommen ähnliche Koordinaten und werden so eng im Raum gruppiert. Am Ende repräsentiert so jeder Punkt die Bedeutung des Wortes im Kontext der Sprache.
Die Konsequenz: Wörter in verschiedenen Sprachen, etwa „Auto“ und „car“, belegen denselben Punkt im Raum. Das macht es möglich, zwei Sprachen übereinanderzulegen. Übersetzung ist jetzt nur noch die sture Bewegung von Punkt zu Punkt durch den Raum.
Die so simple wie mächtige Methode scheitert jedoch an ausgestorbenen Sprachen: Dort gibt es durch zu wenig Text samt mangelnder Übersetzung keine passenden Wortpaare im Raum.
Sprachforscher haben nun eine Lösung für das Problem gefunden: Sie nutzen die Nachfolgersprache Altgriechisch, um passende Wortpaare für die ausgestorbene Sprache zu finden.
Alternativer Ansatz für ausgestorbene Sprachen
Übersetzt hat die Künstliche Intelligenz der Sprachforscher die sogenannte Linearschrift B, die zwischen dem 15. und 12. Jahrhundert v. Chr. im griechischen Raum verwendet wurde. Insgesamt sind von Linearschrift B nur etwa 160 Zeichen mit Wortbedeutung bekannt.
1878 vom britischen Archäologen Arthur Evans entdeckt, gelang es Sprachforschern erst 1952, den Text zu übersetzen. Der Grund für ihren Erfolg: Sie erkannten, dass Linearschrift B eine frühe Form der griechischen Sprache war.
Genau diese Erkenntnis macht sich nun ein Team von Forschern des Massachusetts Institute of Technology (MIT) und Googles KI-Abteilung zunutze. Sie verwendeten für ihre Übersetzungs-KI die ausgestorbenen Linearschrift B und Texte der Nachfolgersprache Altgriechisch. Funktioniert die KI, gibt es dadurch wieder für jedes Wort ein Gegenstück (Punkt) im Raum.
Erste KI-Übersetzung der Linearschrift B
Um die korrekten Zuordnungen im Raum zu finden und mit diesen passende Übersetzungen, gaben die Forscher der KI zusätzliche aus der Linguistik bekannte Regeln für Sprachveränderung.
Diese Regeln beschreiben, wie sich Sprache im Laufe der Zeit verändert: Etwa gibt es in verwandten Sprachen häufig direkte Übersetzungen für Wörter, die demselben Wort entspringen, wie für das englische "House" und das deutsche "Haus", die dem Ursprungswort "hus" entspringen.
Durch die Kombination von verwandter, altgriechischer Sprache und den Regeln der Sprachveränderung gelang es der KI, 67,3 Prozent der Wörter ihren altgriechischen Verwandten zuzuordnen und so zu übersetzen.
Es ist die erste automatische KI-Übersetzung der Linearschrift B und zeigt, dass der Ansatz der Forscher vielversprechend ist. Sie testeten ihre KI außerdem erfolgreich mit einer frühen Form des Hebräischen (Ugaritische Sprache).
KI könnte so in Zukunft die Übersetzung ausgestorbener Sprachen beschleunigen – zumindest solange verwandte Sprachen bekannt sind.
Titelbild: By Sharon Mollerus - originally posted to Flickr as How Cool Is Writing?, CC BY 2.0, Link, Quelle: Arxiv