KI-Modelle brechen in der Computer Vision einen Benchmark nach dem anderen – doch in der Praxis zeigen sie immer wieder Schwächen und hinken dem Menschen hinterher. Woran liegt das?
MIT-Forscherinnen und -Forscher zeigen, dass aktuelle Datensätze für das Training häufig Bilder verwenden, die Objekte so deutlich darstellen, dass Menschen - und Maschinen - sie leicht erkennen können. Aber was macht ein "schwieriges" Bild aus? Die Forscher schlagen vor, die Zeit, die ein Mensch benötigt, um ein Objekt in einem Bild zu identifizieren, als Maß zu verwenden.
Die vom Team entwickelte Metrik "Minimum Viewing Time" (MVT) soll die Schwierigkeit, ein Bild zu erkennen, quantifizieren. Die Forscher verwendeten einen Teil des ImageNet-Datensatzes und den ObjectNet-Datensatz, um Bilder für verschiedene Zeitspannen von 17 Millisekunden bis zu 10 Sekunden zu zeigen und die Teilnehmer aufzufordern, das richtige Objekt aus 50 Optionen auszuwählen. Nach mehr als 200.000 Durchläufen stellten die Forscher fest, dass die Testsets in Richtung einfacherer, kürzerer MVT-Bilder verzerrt waren, sodass der Großteil der Benchmark-Leistung von Bildern stammte, die für Menschen leicht zu erkennen waren.
Das Team zeigte auch, dass größere Modelle wie Vision Transformer bei einfacheren Bildern besser abschneiden als kleinere Modelle, aber bei schwierigeren Bildern weniger Fortschritte machen.
"Minimum Viewing Time" könnte robustere KI-Modelle ermöglichen
Co-Autor Jesse Cummings betont die Bedeutung der MVT für die Bewertung von KI-Modellen: "Wir wollen Modelle, die jedes Bild erkennen können, auch wenn - oder vielleicht gerade wenn - es für einen Menschen schwer zu erkennen ist. Wir sind die ersten, die quantifizieren, was das bedeutet."
Mayo und sein Team erforschen derzeit auch die neurologischen Grundlagen der visuellen Erkennung und untersuchen, ob das Gehirn bei der Verarbeitung einfacher und schwieriger Bilder unterschiedliche Aktivitäten zeigt.
"Dieser umfassende Ansatz geht die seit langem bestehende Herausforderung an, Fortschritte in der Objekterkennung auf menschlicher Ebene objektiv zu bewerten, und eröffnet neue Wege für das Verständnis und den Fortschritt in diesem Bereich", so Co-Autor David Mayo. Die Möglichkeit, die MVT als Metrik für die Schwierigkeit einer Aufgabe für viele unterschiedliche Computer-Vision-Aufgaben zu nutzen, könnte den Weg zu robusterer und menschenähnlicherer Leistung in der Objekterkennung ebnen.