Maschinenübersetzungen dominieren frei verfügbare Web-Inhalte in mehreren Sprachen, zeigt eine neue Studie.
Eine neue Studie von Amazons KI-Labor und der UC Santa Barbara zeigt, dass ein beträchtlicher Anteil mehrsprachiger Webinhalte in vielen Sprachen maschinell übersetzt wird, insbesondere in ressourcenarmen Sprachen. Die Studie untersuchte die Qualität von Übersetzungen im Web und stellte fest, dass Texte, die in vielen Sprachen als Übersetzungen im Web verfügbar sind, eine schlechtere Qualität aufweisen als Texte, die nur in einer oder wenigen Sprachen verfügbar sind. Nach Ansicht des Teams deutet dies auf maschinelle Übersetzung hin.
Darüber hinaus sei auch die Qualität der Originaltexte oft gering: Viele Inhalte, die in viele Sprachen übersetzt werden, seien minderwertige Inhalte in englischer Sprache, die dann in viele ressourcenarme Sprachen übersetzt werden - wohl um Werbeeinnahmen zu generieren.
Für die Studie sammelte das Team Milliarden von Übersetzungen und filterte doppelte Sätze heraus. Am Ende der Studie stand das bisher größte mehrsprachige Korpus mit 6,4 Milliarden einzigartigen Sätzen in 90 Sprachen.
Studie empfiehlt Filterung von Übersetzungsdaten vor KI-Training
Die Ergebnisse deuten darauf hin, dass maschinell übersetzte Inhalte einen großen Teil der Übersetzungen im Web ausmachen, insbesondere in Sprachen mit geringen Ressourcen, und werfen nach Ansicht des Teams Bedenken hinsichtlich der Verwendung solcher Inhalte für das Training von KI-Modellen auf.
Die Autoren der Studie schlagen vor, dass die Erkennung maschineller Übersetzungen und die Berücksichtigung der Mehrsprachigkeit beim Filtern von Trainingsdaten für KI-Modelle hilfreich sein könnten, um die Qualität der Modelle zu verbessern. Sie betonen auch die Notwendigkeit, die Auswirkungen maschinell übersetzter Inhalte auf das Training und die Leistung von KI-Modellen weiter zu untersuchen.