Zukünftige KI-Assistenten könnten euch buchstäblich jeden Wunsch von den Lippen ablesen.
Forscher von Googles KI-Schwester Deepmind arbeiten an einem neuronalen Netz optimiert für das Lippenlesen. Ihre größte Errungenschaft im Projekt ist wohl die Aufbereitung der KI-Trainingsdaten: Mit einem selbst entwickelten Programm filterten sie aus 140.000 Stunden YouTube-Videos sprechender Menschen englische Laute samt Mundbewegungen heraus. Aus diesen Lauten - sogenannte Phoneme - werden Wörter zusammengesetzt.
Die Software entfernte zusätzlich nicht sprechende Menschen und fremde Sprachen, qualitativ minderwertige Aufnahmen und solche, in denen die Mundbewegungen nicht direkt von vorne zu sehen sind.
Übrig blieben circa 4.000 Stunden Videomaterial mit insgesamt 127.000 englischen Wörtern verteilt über einzelne Clips. In einem weiteren Schritt wurden die einzelnen Clips auf den Mund eingezooomt.
Lippenlese-KI schneidet deutlich besser ab als Mensch und Maschine
Mit diesem hochwertigen Datensatz trainierten die Forscher ein neuronales Netz. Das Ergebnis bezeichnen sie selbst als "beispiellos": In einem 37-minütigen unbekannten Video konnte die KI knapp 60 Prozent aller Wörter korrekt von den Lippen ablesen.
Das ist eine außerordentlich gute Quote: Laut den Forschern analysiert das bislang beste KI-Lippenlesesystem LipNet im selben Video nur circa 23 Prozent der Wörter korrekt.
Menschliche Lippenleser erkennen nur sieben Prozent der Wörter und bis zu 14 Prozent, wenn sie neben den Lippenbewegungen zusätzliche Kontextinformationen (beispielsweise Gesten) auswerten dürfen.
Eine lippenlesende Künstliche Intelligenz für jedermann beispielsweise in das Smartphone integriert könnte sich als alltagstaugliche Spionagetechnologie erweisen. Schon jetzt ist es gängig, dass sich beispielsweise Fußballspieler oder Politiker beim privaten Sprechen in der Öffentlichkeit die Hand über die Lippen legen. So wollen sie verhindern, dass ihre Worte von einem professionellen Lippenleser erkannt werden.
Via: Science.org