Inhalt
newsletter Newsletter

Microsoft veröffentlicht eine neue Bildanalyse-KI, die genauer und schneller als vergleichbare Systeme ist.

"Fair Multi-Objekt Tracking" (FairMOT) entstand in einer Kooperation zwischen Microsoft und der chinesischen Huazhong Universität. FairMOT sei anderen vergleichbaren Bildanalyse-KIs überlegen und könne auf moderner Hardware 30 Bilder pro Sekunde analysieren, schreiben die Forscher. Die leistungsstarke Künstliche Intelligenz erkennt so zuverlässig Objekte in Echtzeit-Videomaterial.

Beim Echtzeittracking von Videoaufnahmen müssen KIs ein Objekt zunächst korrekt identifizieren und dann in jedem Bild wiedererkennen (Re-Identifikation). Die meisten KI-Techniken nutzen für diese beiden Schritte jeweils ein eigenes KI-Netzwerk.

So erreichen sie eine hohe Genauigkeit, benötigen aber viel Rechenleistung. Videoanalyse in Echtzeit ist mit so einem Doppelnetzansatz daher nur mit einem Supercomputer möglich.

Anzeige
Anzeige

Effizientes, schnelles Objekttracking

Alternative Ansätze versuchen, die Objekterkennung und Re-Identifikation in einem KI-Netzwerk zu vereinen. In der Praxis führt das zwar zu schnellerem Tracking, aber die Genauigkeit fällt ab.

Hier setzt Microsofts FairMOT an: Es schafft, beide Aufgaben in einem Netzwerk zu vereinen, ohne an Genauigkeit zu verlieren.

Microsoft ersetzt dafür die in der Objekterkennung üblichen ankerbasierten Bounding-Boxen, da diese zu ungenau für die Re-Identifikation seien. Stattdessen nutzen die Forscher einen feinmaschigeren Detektor.

In Multi-Objekt-Tracking Benchmarks (MOT15, MOT16 und MOT17) gehört Microsofts KI-Objekterkennung konstant zu den genausten Bildanalyse-KIs bei einer Analysegeschwindigkeit von 25 bis 30 Bildern pro Sekunde.

FairMOT kostenlos verfügbar

FairMOT ist Open-Source und kann kostenlos auf GitHub heruntergeladen werden. Neben dem Quellcode hat Microsoft dort einige vortrainierte KI-Modelle veröffentlicht, die Aufnahmen oder Live-Video analysieren können.

Empfehlung

Als mögliche Anwendungsfälle nennen die Forscher öffentliche Sicherheit, Analyse von Sportvideos, Altenpflege oder die Steuerung von Computern mit visuellen Interfaces.

Quelle: Arxiv; Titelbild: Microsoft

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Weiterlesen über Künstliche Intelligenz:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!