Googles neue Bildanalyse-KI erkennt eure Pose und zeigt passende Bilder

20. Juli 2018 Matthias Bastian

Googles Bildanalyse-KI erkennt Posen und zeigt dazu passende Bilder aus einer Datenbank an - in Echtzeit und mit wahnwitziger Geschwindigkeit.

"Move Mirror" - Bewegungsspiegel - so nennt Google treffend sein neuestes KI-Experiment: Für dieses muss der Nutzer zunächst diese Webseite aufrufen, die Webcam aktivieren und vor ihr posieren.

Die KI analysiert die Pose mit dem Computer-Vision-Modell "PoseNet" in Echtzeit und sucht anschließend in einer Datenbank mit über 80.000 Bildern nach einer ähnlichen Pose. Ist sie fündig geworden, blendet sie das Bild ein.

Das Ganze funktioniert mit einer wahnwitzigen Geschwindigkeit: Die KI erkennt den Übergang von einer Pose in die nächste fließend und wirft passende Bilder aus. Der Effekt erinnert an ein KI-generiertes Daumenkino entlang der eigenen Bewegungen.

Das neuronale Netz basiert auf der Web-Version von Googles KI-Bibliothek Tensorflow. Laut Google werden die Videodaten nur lokal verarbeitet und nicht gespeichert oder an einen Server gesendet.

Potenzial für eine neue Suchmaschine?

In Googles begleitendem Blog-Eintrag heißt es, dass Move Mirror zeige, wie einfach und günstig Posenerkennung für jedermann bereits mit einer herkömmlichen Webcam samt Standard-Computer verfügbar ist.

Das Unternehmen sieht Potenzial für eine neue Art Suchmaschine: Beispielsweise könne man eine Yoga-Position oder eine markante Geste aus einem Film nachstellen. Die KI zeigt dann dazu passende Informationen an.

Interessant ist die Posenerkennung speziell für VR und AR: Bei den neuen Medientechnologien übernimmt der Körper ohnehin die Rolle als Eingabegerät. Die flotte Posenerkennung ist womöglich ein Schritt hin zum optischen Ganzkörpertracking - mit nur einer Kamera.

Facebook-Forscher demonstrierten bereits, dass für optisches Ganzkörpertracking schon die Smartphone-Kamera reichen kann. Kürzlich zeigte Oculus ein flüssiges und fortschrittliches Handtracking-System, das ebenfalls mit einer Kombination aus Posenerkennung und maschinellem Lernverfahren arbeitet.