In den Vereinigten Arabischen Emiraten soll eine mit „Deep Voice“ generierte Computerstimme eine Millionen-Überweisung angefordert und erhalten haben.
Bekannt sind insbesondere visuelle Deepfakes (Historie), bei denen Gesichter in Videos mittels KI-Technik ausgetauscht werden. Dieser Spezialeffekt ist an sich keine neue Errungenschaft der Computertechnik. Neu ist, dass der Deepfake-Gesichtertausch bei einer hohen Qualität mit relativ geringem Aufwand möglich ist im Vergleich zu klassischen Methoden – und damit auch für mehr Menschen zugänglich wird.
Was viele nicht wissen: Deepfake-Technik funktioniert auch für Audio – KI-generierte Stimmklone, die vom Original kaum mehr zu unterscheiden sind. Da Menschen viel schlechter hören als sehen, könnten sich Deepfake-Stimmklone als mächtiges Werkzeug für Betrüger:innen herausstellen, so die Theorie.
Angeblicher Deepfake-Diebstahl in den Arabischen Emiraten in Millionenhöhe
Ein neuer Bericht von Forbes beschreibt einen Trickbetrug per Telefon, bei dem womöglich Deepfake-Audio zum Einsatz kam: Ein Bankangestellter soll auf den Anruf eines Firmendirektors hin Überweisungen in Höhe von rund 35 Millionen US-Dollar vorgenommen haben auf Konten, die letztlich den Kriminellen zugänglich waren.
Im Gerichtsdokument zum Vorfall steht ein Satz zum Stimmklon, auf den Forbes die Deepfake-These stützt: Die Ermittlungen hätten ergeben, dass die Angeklagten "Deep-Voice-Technologie" eingesetzt hätten, um "die Stimme des Direktors zu simulieren". Details zur Technik werden nicht erwähnt.
Der Fake-Firmendirektor gab am Telefon an, eine Übernahme vorzubereiten, für die er das Geld benötige. Der Bankangestellte meinte, die Stimme aus früheren Telefonaten wiederzuerkennen und folgte der Anweisung.
In Ergänzung zum Telefongespräch erhielt der Bankangstelle E-Mails des Firmendirektors mit einem verantwortlichen Anwalt, die die Übernahme und die notwendige Überweisung bestätigten. Mindestens 17 Personen sollen in den Betrug involviert gewesen sein, schätzen die ermittelnden Behörden.
Deepfake-Audio-Betrug ist technisch möglich
Deepfake-Stimmklone mit einer hohen Qualität sind leicht zugänglich. Real Time Voice Cloning etwa ist ein einfach zu bedienendes Open-Source-Tool: Alles, was die Software für den Stimmklon benötigt, sind kurze Aufnahmen der Originalstimme für das KI-Training, etwa ein Mitschnitt aus einer Investorenkonferenz. Auf Basis einer Texteingabe kann die Software dann innerhalb weniger Sekunden den passenden gesprochenen Satz in der vorgegebenen Stimme vorlesen.
Die Herausforderung bei einem Telefongespräch ist, dass zahlreiche passende Sätze vorbereitet und dann abgespielt werden müssten, um verdächtige Gesprächspausen zu minimieren. Das ist aufwendig, weil viele mögliche Gesprächsszenarien durchgespielt werden müssen – möglich wäre es jedoch.
Für spontane, unerwartete Echtzeit-Antworten wäre das System schnell genug, wenn es sich nur um kurze Sätze handelt. Man könnte sich weiterer Tricks bedienen, etwa ein unerwartetes Funkloch, um die Pausen zu erklären und damit die Authentizität des Gesprächs zu wahren.
Ein für schnelle Stimmklone vorbereitetes Netz hört sogar explizit auf den Namen "Deep Voice", wie er im Gerichtsdokument erwähnt wird. Der chinesische Internetriese Baidu veröffentlichte es 2018 und pries es insbesondere damit an, dass wenig Datenmaterial benötigt würde für einen überzeugenden Stimmklon. Deep Voice ist ebenfalls als Open Source bei Github verfügbar.
Der Fall aus den Emiraten soll nicht der erste seiner Art sein: Im Sommer 2019 berichtete das Wall Street Journal über einen angeblichen Deepfake-Diebstahl mittels Stimmklon in UK. Im Juli 2019 war es die Cyber-Sicherheitsfirma Symantec, die von insgesamt drei Deepfake-Audio-Angriffen berichtete.