Inhalt
summary Zusammenfassung

KI-Modelle brechen in der Computer Vision einen Benchmark nach dem anderen – doch in der Praxis zeigen sie immer wieder Schwächen und hinken dem Menschen hinterher. Woran liegt das?

MIT-Forscherinnen und -Forscher zeigen, dass aktuelle Datensätze für das Training häufig Bilder verwenden, die Objekte so deutlich darstellen, dass Menschen - und Maschinen - sie leicht erkennen können. Aber was macht ein "schwieriges" Bild aus? Die Forscher schlagen vor, die Zeit, die ein Mensch benötigt, um ein Objekt in einem Bild zu identifizieren, als Maß zu verwenden.

Bild: Mayo, Cummings, Lin et al.

Die vom Team entwickelte Metrik "Minimum Viewing Time" (MVT) soll die Schwierigkeit, ein Bild zu erkennen, quantifizieren. Die Forscher verwendeten einen Teil des ImageNet-Datensatzes und den ObjectNet-Datensatz, um Bilder für verschiedene Zeitspannen von 17 Millisekunden bis zu 10 Sekunden zu zeigen und die Teilnehmer aufzufordern, das richtige Objekt aus 50 Optionen auszuwählen. Nach mehr als 200.000 Durchläufen stellten die Forscher fest, dass die Testsets in Richtung einfacherer, kürzerer MVT-Bilder verzerrt waren, sodass der Großteil der Benchmark-Leistung von Bildern stammte, die für Menschen leicht zu erkennen waren.

Das Team zeigte auch, dass größere Modelle wie Vision Transformer bei einfacheren Bildern besser abschneiden als kleinere Modelle, aber bei schwierigeren Bildern weniger Fortschritte machen.

Anzeige
Anzeige

"Minimum Viewing Time" könnte robustere KI-Modelle ermöglichen

Co-Autor Jesse Cummings betont die Bedeutung der MVT für die Bewertung von KI-Modellen: "Wir wollen Modelle, die jedes Bild erkennen können, auch wenn - oder vielleicht gerade wenn - es für einen Menschen schwer zu erkennen ist. Wir sind die ersten, die quantifizieren, was das bedeutet."

Mayo und sein Team erforschen derzeit auch die neurologischen Grundlagen der visuellen Erkennung und untersuchen, ob das Gehirn bei der Verarbeitung einfacher und schwieriger Bilder unterschiedliche Aktivitäten zeigt.

"Dieser umfassende Ansatz geht die seit langem bestehende Herausforderung an, Fortschritte in der Objekterkennung auf menschlicher Ebene objektiv zu bewerten, und eröffnet neue Wege für das Verständnis und den Fortschritt in diesem Bereich", so Co-Autor David Mayo. Die Möglichkeit, die MVT als Metrik für die Schwierigkeit einer Aufgabe für viele unterschiedliche Computer-Vision-Aufgaben zu nutzen, könnte den Weg zu robusterer und menschenähnlicherer Leistung in der Objekterkennung ebnen.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • MIT-Forscher entwickeln "Minimum Viewing Time" (MVT), eine Metrik, die die Schwierigkeit misst, ein Objekt in einem Bild zu erkennen, basierend auf der Zeit, die ein Mensch benötigt, um es zu identifizieren.
  • Die Studie zeigt, dass aktuelle KI-Modelle in der Objekterkennung bei einfacheren Bildern besser abschneiden, aber bei schwierigeren Bildern weniger Fortschritte machen.
  • Die Verwendung von MVT als Metrik könnte den Weg für robustere und menschenähnlichere Leistung in der Objekterkennung ebnen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!