KI rekonstruiert Gesichter anhand der Stimme

Ein KI-Experiment der Universität Carnegie Mellon wirft erneut die Frage auf: Wo sind die Grenzen maschineller Statistik?

KI-Forscher der Universität Carnegie Mellon haben ein neuronales Netzwerk darauf trainiert, passend zu einer Stimme ein Gesicht zu zeichnen. Die KI analysiert dafür einen kurzen Audioclip und zeigt dann, wie das Gesicht hinter der Stimme im echten Leben aussehen könnte.

Fürs KI-Training verwendeten die Forscher Millionen Internetvideos sprechender Personen. Die KI analysierte sowohl die Sprache als auch die Struktur des Gesichts und untersuchte mögliche Zusammenhänge. Außerdem wurden physische Faktoren wie Alter, Geschlecht und Herkunft berücksichtigt.

Die KI wühlte sich beim Training eigenständig durch die Daten, eine aufwendige Kennzeichnung vorab war nicht notwendig. Laut der Forscher liegen die Übereinstimmungen im Aussehen zwischen der halluzinierten und der tatsächlichen Person "deutlich über Zufallsniveau". Die folgenden Beispiele zeigen einen Vergleich zwischen einer bild- und einer audiobasierten KI-Rekonstruktion.

Die bildbasierte KI-Rekonstruktion ist deutlich näher am Original als die Audiovariante. Bild: Carnegie Mellon University — Die bildbasierte KI-Rekonstruktion ist deutlich näher am Original als die Audiovariante, die aber in einigen Fällen erstaunlich akkurat ist. Bild: Carnegie Mellon University

Die Forscher stellen außerdem fest, dass die Ähnlichkeit des generierten Gesichts bei längeren Audiobeispielen steigt. Die Verbesserung betrifft insbesondere die Vorhersage über Alter, Geschlecht und Herkunft.

KI rekonstruiert Gesichter anhand der Stimme - und das erstaunlich gut — Bei längeren Audiobeispielen steigt die Genauigkeit der KI-Gesichtsprognose. Bild: Carnegie Mellon University

Die Forscher weisen darauf hin, dass ihr Datensatz unvollständig und damit unausgewogen ist. Die Gesichter zu Stimmen mit ungewöhnlichem Klang oder in unterrepräsentierten Sprachen könnten weniger genau rekonstruiert werden.

Einige der Faktoren der Gesichtsprognose, wie zum Beispiel Haarfarbe oder die Frisur, hätten womöglich keinen direkten Zusammenhang mit dem Klang der Stimme. Wenn jedoch viele Sprecher in den Trainingsdaten in ähnlicher Weise sprechen und noch dazu visuelle Eigenschaften teilen, beeinflusse das die Vorhersagen.

Die Forscher beschreiben ihr Experiment im Detail auf einer Projektseite. Das vollständige Papier ist hier einsehbar.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

KI rekonstruiert Gesichter anhand der Stimme - und das erstaunlich gut

Weiterlesen über Künstliche Intelligenz:

OpenAI, Github & Microsoft: KI-Programmier-Tool Copilot startet

Deepfakes: Wie alles begann - und wohin es führen könnte

Alexa Guide: Routinen, Multiroom, Anrufe & Echo einrichten

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

KI rekonstruiert Gesichter anhand der Stimme - und das erstaunlich gut

Weiterlesen über Künstliche Intelligenz:

OpenAI, Github & Microsoft: KI-Programmier-Tool Copilot startet

Deepfakes: Wie alles begann - und wohin es führen könnte

Alexa Guide: Routinen, Multiroom, Anrufe & Echo einrichten