Inhalt
summary Zusammenfassung

Eine Studie des University College London hat gezeigt, dass Menschen maschinell generierte Deepfake-Stimmen nur in 73 Prozent der Fälle erkennen können, wobei die Genauigkeit bei Englisch- und Mandarin-Sprechern gleich ist.

Anzeige

Mit Hilfe eines Sprachsynthese-Algorithmus erzeugten die Forscher 50 gefälschte Sprachproben in jeder Sprache und spielten sie 529 Teilnehmern vor.

In rund 27 Prozent der Fälle hielten die Zuhörer die falsche Stimme für echt. Gewöhnung steigerte die Erkennungsgenauigkeit nur um durchschnittlich 3,84 Prozent, auch mehrmaliges oder kürzeres Anhören der Clips half nicht.

Das bedeutet beispielsweise, dass jeder vierte Telefonbetrug erfolgreich sein könnte. Allerdings spielen hier auch andere Faktoren eine Rolle, zum Beispiel, dass man eine bekannte Stimme wahrscheinlich besser als Fälschung erkennt (aber es ist noch gefährlicher, sie nicht als Fälschung zu erkennen).

Anzeige
Anzeige

Die Erkennung gefälschter Stimmen wird noch schwieriger werden

Die Forscher gehen jedoch davon aus, dass die Fälschungen in Zukunft noch besser und realistischer werden, so dass es noch schwieriger wird, sie zu erkennen. Für die Studie wurde nicht einmal die neueste Technologie verwendet.

"Die Schwierigkeit, gefälschte Stimmen zu erkennen, bestätigt deren Missbrauchspotenzial und zeigt die Notwendigkeit, Schutzmaßnahmen gegen diese Bedrohung zu ergreifen."

Die Studie mit dem sehr direkten Titel "Warnung: Menschen können Stimmfälschungen nicht zuverlässig erkennen" gibt zudem Grund zur Annahme, dass gefälschte Audiodateien auch mit Training nicht konsistent erkannt werden können: "Unsere Ergebnisse deuten auf die Notwendigkeit automatisierter Detektoren hin, um die Schwächen des menschlichen Hörers auszugleichen."

Obwohl automatische Deepfake-Detektoren ihre Grenzen haben, sei es wichtig, diese Systeme zu verbessern, um die potenziellen Gefahren, die von Deepfake-Inhalten ausgehen, zu verringern, so Kimberly Mai, die Hauptautorin der Studie. Im Vergleich zu gefälschten Videos gibt es bei gefälschten Audiodateien noch weniger Anhaltspunkte, um sie als Fälschungen zu erkennen.

"Wir zeigen, dass selbst in einer kontrollierten Umgebung, in der die Aufgabe einfacher ist (die Teilnehmenden sind sich des Vorhandenseins von Stimmfälschungen bewusst und die Fälschungen wurden nicht mit Hilfe von Sprachsynthesizern auf dem neuesten Stand der Technik erzeugt), die Erkennungsrate der Fälschungen nicht hoch ist."

Ein interessanter Aspekt, den die Forscher herausfanden, war, dass sowohl Personen, die echte Stimmen korrekt als echt einstuften, als auch Personen, die sie fälschlicherweise als falsch einstuften, dazu neigten, die gleichen Attribute wie Pausen, Laute usw. als Ursache für ihre Entscheidung zu betonen. Intuition spielte eine entscheidende Rolle bei der Entscheidungsfindung.

In Bezug auf die Gesamtleistung war die Kombination mehrerer menschlicher Beurteilungen, in der Studie als "Crowd-Performance" bezeichnet, den besten automatischen Detektoren ebenbürtig und hatte eine geringere Wahrscheinlichkeit, bei sich ändernden Bedingungen zu scheitern.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie des University College London zeigt, dass Menschen gefälschte Stimmen nur in 73 % der Fälle richtig erkennen können, wobei es keinen signifikanten Unterschied zwischen Personen gibt, die Englisch oder Mandarin sprechen.
  • Gewöhnung und wiederholtes Hören hatten nur minimale Auswirkungen auf die Erkennungsgenauigkeit der Teilnehmer, was Anlass zur Sorge gibt, dass gefälschte Stimmen für Betrug und Fehlinformationen missbraucht werden könnten.
  • Die Forscher betonen die Notwendigkeit verbesserter automatischer Deepfake-Detektoren, um die zunehmenden Schwierigkeiten bei der Erkennung von Sprachmanipulationen zu verringern, da menschliche Intuition und Urteilsvermögen nach wie vor unzureichend sind.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!