Microsoft veröffentlicht eine neue Bildanalyse-KI, die genauer und schneller als vergleichbare Systeme ist.
"Fair Multi-Objekt Tracking" (FairMOT) entstand in einer Kooperation zwischen Microsoft und der chinesischen Huazhong Universität. FairMOT sei anderen vergleichbaren Bildanalyse-KIs überlegen und könne auf moderner Hardware 30 Bilder pro Sekunde analysieren, schreiben die Forscher. Die leistungsstarke Künstliche Intelligenz erkennt so zuverlässig Objekte in Echtzeit-Videomaterial.
Beim Echtzeittracking von Videoaufnahmen müssen KIs ein Objekt zunächst korrekt identifizieren und dann in jedem Bild wiedererkennen (Re-Identifikation). Die meisten KI-Techniken nutzen für diese beiden Schritte jeweils ein eigenes KI-Netzwerk.
So erreichen sie eine hohe Genauigkeit, benötigen aber viel Rechenleistung. Videoanalyse in Echtzeit ist mit so einem Doppelnetzansatz daher nur mit einem Supercomputer möglich.
Effizientes, schnelles Objekttracking
Alternative Ansätze versuchen, die Objekterkennung und Re-Identifikation in einem KI-Netzwerk zu vereinen. In der Praxis führt das zwar zu schnellerem Tracking, aber die Genauigkeit fällt ab.
Hier setzt Microsofts FairMOT an: Es schafft, beide Aufgaben in einem Netzwerk zu vereinen, ohne an Genauigkeit zu verlieren.
Microsoft ersetzt dafür die in der Objekterkennung üblichen ankerbasierten Bounding-Boxen, da diese zu ungenau für die Re-Identifikation seien. Stattdessen nutzen die Forscher einen feinmaschigeren Detektor.
In Multi-Objekt-Tracking Benchmarks (MOT15, MOT16 und MOT17) gehört Microsofts KI-Objekterkennung konstant zu den genausten Bildanalyse-KIs bei einer Analysegeschwindigkeit von 25 bis 30 Bildern pro Sekunde.
FairMOT kostenlos verfügbar
FairMOT ist Open-Source und kann kostenlos auf GitHub heruntergeladen werden. Neben dem Quellcode hat Microsoft dort einige vortrainierte KI-Modelle veröffentlicht, die Aufnahmen oder Live-Video analysieren können.
Als mögliche Anwendungsfälle nennen die Forscher öffentliche Sicherheit, Analyse von Sportvideos, Altenpflege oder die Steuerung von Computern mit visuellen Interfaces.
Quelle: Arxiv; Titelbild: Microsoft