Inhalt
summary Zusammenfassung

Maschinenübersetzungen dominieren frei verfügbare Web-Inhalte in mehreren Sprachen, zeigt eine neue Studie.

Anzeige

Eine neue Studie von Amazons KI-Labor und der UC Santa Barbara zeigt, dass ein beträchtlicher Anteil mehrsprachiger Webinhalte in vielen Sprachen maschinell übersetzt wird, insbesondere in ressourcenarmen Sprachen. Die Studie untersuchte die Qualität von Übersetzungen im Web und stellte fest, dass Texte, die in vielen Sprachen als Übersetzungen im Web verfügbar sind, eine schlechtere Qualität aufweisen als Texte, die nur in einer oder wenigen Sprachen verfügbar sind. Nach Ansicht des Teams deutet dies auf maschinelle Übersetzung hin.

Darüber hinaus sei auch die Qualität der Originaltexte oft gering: Viele Inhalte, die in viele Sprachen übersetzt werden, seien minderwertige Inhalte in englischer Sprache, die dann in viele ressourcenarme Sprachen übersetzt werden - wohl um Werbeeinnahmen zu generieren.

Für die Studie sammelte das Team Milliarden von Übersetzungen und filterte doppelte Sätze heraus. Am Ende der Studie stand das bisher größte mehrsprachige Korpus mit 6,4 Milliarden einzigartigen Sätzen in 90 Sprachen.

Anzeige
Anzeige

Studie empfiehlt Filterung von Übersetzungsdaten vor KI-Training

Die Ergebnisse deuten darauf hin, dass maschinell übersetzte Inhalte einen großen Teil der Übersetzungen im Web ausmachen, insbesondere in Sprachen mit geringen Ressourcen, und werfen nach Ansicht des Teams Bedenken hinsichtlich der Verwendung solcher Inhalte für das Training von KI-Modellen auf.

Die Autoren der Studie schlagen vor, dass die Erkennung maschineller Übersetzungen und die Berücksichtigung der Mehrsprachigkeit beim Filtern von Trainingsdaten für KI-Modelle hilfreich sein könnten, um die Qualität der Modelle zu verbessern. Sie betonen auch die Notwendigkeit, die Auswirkungen maschinell übersetzter Inhalte auf das Training und die Leistung von KI-Modellen weiter zu untersuchen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine neue Studie zeigt, dass ein beträchtlicher Teil mehrsprachiger Webinhalte maschinell übersetzt wird, insbesondere in Sprachen mit geringen Ressourcen, was die Qualität von KI-Modellen, die mit solchen Daten trainiert wurden, beeinträchtigen kann.
  • Die Studie ergab, dass Texte, die in viele Sprachen übersetzt wurden, eine schlechtere Qualität aufwiesen als Texte, die nur in einer oder wenigen Sprachen verfügbar waren – ein Hinweis, dass maschinelle Übersetzung verwendet wurde.
  • Die Autoren der Studie empfehlen daher, maschinelle Übersetzungen aus den Trainingsdaten herauszufiltern und die Auswirkungen maschinell übersetzter Inhalte auf die Leistung von KI-Modellen weiter zu untersuchen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!