KI in der Praxis

Tensorflow: Neues 3D-Bodytracking läuft im Browser - probiert es selbst

Matthias Bastian
Ein Mann steht im Park und macht Kniebeugen. Eine KI-Kamera beobachtet die Szene und hat ein digitales Knochengerüst auf ihn gelegt. So erkennt und verfolgt sie seine Bewegungen.

Tensorflow

Das neueste Tensorflow-Modell für 3D-Körpertracking zeigt eindrucksvoll den Fortschritt bei KI-gestützten Trackingverfahren.

Vor einigen Jahren schien es unvorstellbar, dass präzises Raum- oder Körpertracking ohne enorme Rechenleistung und nur mit einzelnen Kameras möglich ist. Dann folgten große Fortschritte beim visuellen Training neuronaler Netze sowie bei der Architektur von KI-Modellen. Heute laufen Tracking-Algorithmen - salopp formuliert - auf jedem Toaster.

Tensorflow-Update bringt 3D-Körpertracking

Die neuste Tensorflow-Version bietet 3D-Körpertracking jetzt direkt im Browser mit einer einzelnen Kamera. Frühere Versionen unterstützten bereits 2D-Körpertracking, jetzt werden erstmals Bewegungen in die Tiefe korrekt erfasst.

Die von Google erdachte Open Source KI-Softwarebibliothek nutzt für das 3D-Tracking MediaPipe und TensorFlow.js mit FaceMesh, BlazePose und Hand Pose. All das läuft ohne Installation auf einer Webseite und mit Webcams, wie sie mittlerweile so ziemlich alle im oder am Rechner haben dürften.

KI-Modell-Entwicklung mit künstlichen Daten

Eine besondere Herausforderung bei der Entwicklung des Tracking-Modells war laut des Tensorflow-Teams die Zusammenstellung der Daten für das KI-Training: Beschriftete 3D-Daten echter menschlicher Bewegungen bräuchten entweder ein Labor oder zumindest spezielle Tiefensensoren für 3D-Scans. Zusätzlicher Aufwand sei es, in diesem Szenario die Vielfalt an Umgebungen und Menschen sicherzustellen.

Stattdessen entschied sich das Team für synthetische Daten, die es mit dem digitalen 3D-Mensch-Modell GHUM generierte. Dafür erweiterte es den schon vorhandenen 2D-Körpertrackingdatensatz mit 3D-Schlüsselpunkten im metrischen Raum und legte die Daten übereinander.

Datensatzbeschrifter zeichneten dann über dickere und dünnere Linien die Tiefenverhältnisse einzelner Gliedmaßen bei bestimmten Posen ein, was die Fehlerquote bei den 3D-GHUM-Rekonstruktionen von 25 auf 3 Prozent reduzierte. Dieses Vorgehen ist laut des Tensorflow-Teams leichter als der Umgang mit realen 3D-Daten.

Eine Frau dehnt sich, ein Mann macht eine Kniebeuge: Auf ihren Körpern sind Linien mit dünnen und dicken Enden eingezeichnet, die dem KI-System beim Training zeigen, welcher Körperteil näher an der Kamera ist. | Bild: Tensorflow

Eine detaillierte Beschreibung der Tracking-Entwicklung steht im Tensorflow-Blog. Auf der folgenden Webseite könnt ihr eine Tensorflow Tracking-Demo über eure Webcam testen.

Weiterlesen über KI und Tracking: