Wie eine unscheinbare Metrik die KI-Bildverarbeitung für immer verändern wird

19. Dezember 2023

DALL-E prompted by THE DECODER

KI-Modelle brechen in der Computer Vision einen Benchmark nach dem anderen – doch in der Praxis zeigen sie immer wieder Schwächen und hinken dem Menschen hinterher. Woran liegt das?

MIT-Forscherinnen und -Forscher zeigen, dass aktuelle Datensätze für das Training häufig Bilder verwenden, die Objekte so deutlich darstellen, dass Menschen - und Maschinen - sie leicht erkennen können. Aber was macht ein "schwieriges" Bild aus? Die Forscher schlagen vor, die Zeit, die ein Mensch benötigt, um ein Objekt in einem Bild zu identifizieren, als Maß zu verwenden.

Die vom Team entwickelte Metrik "Minimum Viewing Time" (MVT) soll die Schwierigkeit, ein Bild zu erkennen, quantifizieren. Die Forscher verwendeten einen Teil des ImageNet-Datensatzes und den ObjectNet-Datensatz, um Bilder für verschiedene Zeitspannen von 17 Millisekunden bis zu 10 Sekunden zu zeigen und die Teilnehmer aufzufordern, das richtige Objekt aus 50 Optionen auszuwählen. Nach mehr als 200.000 Durchläufen stellten die Forscher fest, dass die Testsets in Richtung einfacherer, kürzerer MVT-Bilder verzerrt waren, sodass der Großteil der Benchmark-Leistung von Bildern stammte, die für Menschen leicht zu erkennen waren.

Das Team zeigte auch, dass größere Modelle wie Vision Transformer bei einfacheren Bildern besser abschneiden als kleinere Modelle, aber bei schwierigeren Bildern weniger Fortschritte machen.

"Minimum Viewing Time" könnte robustere KI-Modelle ermöglichen

Co-Autor Jesse Cummings betont die Bedeutung der MVT für die Bewertung von KI-Modellen: "Wir wollen Modelle, die jedes Bild erkennen können, auch wenn - oder vielleicht gerade wenn - es für einen Menschen schwer zu erkennen ist. Wir sind die ersten, die quantifizieren, was das bedeutet."

Mayo und sein Team erforschen derzeit auch die neurologischen Grundlagen der visuellen Erkennung und untersuchen, ob das Gehirn bei der Verarbeitung einfacher und schwieriger Bilder unterschiedliche Aktivitäten zeigt.

"Dieser umfassende Ansatz geht die seit langem bestehende Herausforderung an, Fortschritte in der Objekterkennung auf menschlicher Ebene objektiv zu bewerten, und eröffnet neue Wege für das Verständnis und den Fortschritt in diesem Bereich", so Co-Autor David Mayo. Die Möglichkeit, die MVT als Metrik für die Schwierigkeit einer Aufgabe für viele unterschiedliche Computer-Vision-Aufgaben zu nutzen, könnte den Weg zu robusterer und menschenähnlicherer Leistung in der Objekterkennung ebnen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 16 % Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Wie eine unscheinbare Metrik die KI-Bildverarbeitung für immer verändern wird

"Minimum Viewing Time" könnte robustere KI-Modelle ermöglichen

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.