Eine Studie des University College London hat gezeigt, dass Menschen maschinell generierte Deepfake-Stimmen nur in 73 Prozent der Fälle erkennen können, wobei die Genauigkeit bei Englisch- und Mandarin-Sprechern gleich ist.
Mit Hilfe eines Sprachsynthese-Algorithmus erzeugten die Forscher 50 gefälschte Sprachproben in jeder Sprache und spielten sie 529 Teilnehmern vor.
In rund 27 Prozent der Fälle hielten die Zuhörer die falsche Stimme für echt. Gewöhnung steigerte die Erkennungsgenauigkeit nur um durchschnittlich 3,84 Prozent, auch mehrmaliges oder kürzeres Anhören der Clips half nicht.
Das bedeutet beispielsweise, dass jeder vierte Telefonbetrug erfolgreich sein könnte. Allerdings spielen hier auch andere Faktoren eine Rolle, zum Beispiel, dass man eine bekannte Stimme wahrscheinlich besser als Fälschung erkennt (aber es ist noch gefährlicher, sie nicht als Fälschung zu erkennen).
Die Erkennung gefälschter Stimmen wird noch schwieriger werden
Die Forscher gehen jedoch davon aus, dass die Fälschungen in Zukunft noch besser und realistischer werden, so dass es noch schwieriger wird, sie zu erkennen. Für die Studie wurde nicht einmal die neueste Technologie verwendet.
"Die Schwierigkeit, gefälschte Stimmen zu erkennen, bestätigt deren Missbrauchspotenzial und zeigt die Notwendigkeit, Schutzmaßnahmen gegen diese Bedrohung zu ergreifen."
Die Studie mit dem sehr direkten Titel "Warnung: Menschen können Stimmfälschungen nicht zuverlässig erkennen" gibt zudem Grund zur Annahme, dass gefälschte Audiodateien auch mit Training nicht konsistent erkannt werden können: "Unsere Ergebnisse deuten auf die Notwendigkeit automatisierter Detektoren hin, um die Schwächen des menschlichen Hörers auszugleichen."
Obwohl automatische Deepfake-Detektoren ihre Grenzen haben, sei es wichtig, diese Systeme zu verbessern, um die potenziellen Gefahren, die von Deepfake-Inhalten ausgehen, zu verringern, so Kimberly Mai, die Hauptautorin der Studie. Im Vergleich zu gefälschten Videos gibt es bei gefälschten Audiodateien noch weniger Anhaltspunkte, um sie als Fälschungen zu erkennen.
"Wir zeigen, dass selbst in einer kontrollierten Umgebung, in der die Aufgabe einfacher ist (die Teilnehmenden sind sich des Vorhandenseins von Stimmfälschungen bewusst und die Fälschungen wurden nicht mit Hilfe von Sprachsynthesizern auf dem neuesten Stand der Technik erzeugt), die Erkennungsrate der Fälschungen nicht hoch ist."
Ein interessanter Aspekt, den die Forscher herausfanden, war, dass sowohl Personen, die echte Stimmen korrekt als echt einstuften, als auch Personen, die sie fälschlicherweise als falsch einstuften, dazu neigten, die gleichen Attribute wie Pausen, Laute usw. als Ursache für ihre Entscheidung zu betonen. Intuition spielte eine entscheidende Rolle bei der Entscheidungsfindung.
In Bezug auf die Gesamtleistung war die Kombination mehrerer menschlicher Beurteilungen, in der Studie als "Crowd-Performance" bezeichnet, den besten automatischen Detektoren ebenbürtig und hatte eine geringere Wahrscheinlichkeit, bei sich ändernden Bedingungen zu scheitern.