Inhalt
summary Zusammenfassung

Selbst die fortschrittlichsten KI-Bildmodelle scheitern an grundlegenden Aufgaben des visuellen Schlussfolgerns. Das zeigt eine aktuelle Studie der TU Darmstadt, in der verschiedene Vision Language Models (VLMs) mit sogenannten Bongard-Problemen konfrontiert wurden.

Anzeige

Die nach dem russischen Wissenschaftler Michail Bongard benannten Probleme bestehen aus zwölf einfachen Bildern in zwei Gruppen. Die Aufgabe besteht darin, die Regel zu finden, nach der sich die beiden Gruppen unterscheiden - eine Fähigkeit, die Menschen in der Regel intuitiv beherrschen. Die Rätsel testen das Abstraktionsvermögen.

Menschliche Fähigkeiten gefordert

Viele der Aufgaben sind für Menschen relativ einfach zu lösen - KI-Systeme scheitern dagegen selbst an einfachen Beispielen. Nach Angaben der Forschenden konnte selbst das beste getestete Modell, GPT-4, nur 21 von 100 dieser visuellen Rätsel lösen. Andere bekannte Modelle wie Claude, Gemini und LLaVA schnitten noch schlechter ab.

Vergleichende Darstellung von Bongard-Problemen mit vertikalen und horizontalen Mustern, inkl. Leistungstabelle verschiedener VLM-Modelle.
Aktuelle KI-Bildmodelle zeigen erhebliche Schwächen bei der Mustererkennung in Bongard-Problemen. Während Menschen leicht zwischen vertikalen und horizontalen Elementen unterscheiden können, scheitern selbst fortschrittliche VLMs wie GPT-4o an dieser grundlegenden Aufgabe. | Bild: Wüst et al.

Die Studie zeigt, dass KI-Systeme selbst an elementaren Aufgaben scheitern. Sei es die Drehrichtung einer Spirale oder die Unterscheidung von waagerechten und senkrechten Linien - die Modelle haben erhebliche Probleme bei der Lösung.

Anzeige
Anzeige
Testmatrix mit vier Bildsets: Spiralrichtungen, Ausrichtungen, Formenpositionen und geometrische Anordnungen mit Modellantworten.
Bei der Analyse einfacher visueller Konzepte wie Drehrichtungen oder räumlichen Beziehungen zeigen die VLMs inkonsistente Ergebnisse. Die Modelle haben besonders Schwierigkeiten bei der Interpretation von Spiralen und Orientierungen. | Bild: Wüst et al.

Auch wenn die Forschenden den KI-Modellen Auswahlmöglichkeiten für die richtigen Antworten gaben, verbesserten sich die Ergebnisse nur geringfügig. Erst als die Anzahl der möglichen Antworten stark eingeschränkt wurde, stieg die Erfolgsquote deutlich an - GPT-4 und Claude lösten dann immerhin 68 beziehungsweise 69 von 100 Aufgaben.

Leistungsvergleichstabelle von VLMs: GPT-4o, Claude, Gemini und LLaVA-Versionen bei verschiedenen Bongard-Problem-Varianten.
Die Leistungsdaten zeigen deutliche Grenzen aktueller VLMs: Selbst das beste Modell GPT-4o löst nur 21 von 100 klassischen Bongard-Problemen. Die Erfolgsquote steigt erst bei stark eingeschränkter Auswahlmöglichkeit. | Bild: Wüst et al.

Auch die Gründe für das Scheitern der Modelle haben die Wissenschaftler detailliert untersucht. Bei vier ausgewählten Problemstellungen zeigte sich, dass KI-Systeme manchmal schon bei der grundlegenden visuellen Wahrnehmung scheitern, noch bevor sie zum eigentlichen Denken und Schlussfolgern kommen. Eine eindeutige Ursache konnte jedoch nicht gefunden werden.

Große Lücke zwischen Mensch und Maschine

Die Ergebnisse zeigen laut den Forscherinnen und Forschern, dass zwischen menschlicher und maschineller visueller Intelligenz noch eine große Lücke klafft. Die Untersuchungen zeigten, dass aktuelle KI-Modelle trotz ihrer beeindruckenden Leistungen in anderen visuellen Benchmarks noch weit davon entfernt sind, visuelle Konzepte wirklich zu verstehen, heißt es in der Studie.

Die Ergebnisse werfen auch Fragen zur Bewertung von KI-Systemen auf. Das Forschungsteam empfiehlt, bestehende Benchmarks zu überdenken und zu hinterfragen, ob sie tatsächlich die tatsächlichen logischen Fähigkeiten der Modelle messen.

Die Studie wurde von der Technischen Universität Darmstadt in Zusammenarbeit mit der Eindhoven University of Technology und dem Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) durchgeführt. Sie wurde unter anderem vom Bundesministerium für Bildung und Forschung und der Europäischen Union gefördert.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie der TU Darmstadt und anderer Institutionen zeigt, dass selbst fortgeschrittene KI-Bildmodelle wie GPT-4 an einfachen visuellen Rätseln, den sogenannten Bongard-Problemen, scheitern.
  • Diese Probleme bestehen aus zwölf Bildern in zwei Gruppen, für die die Regel gefunden werden muss, nach der sich die Gruppen unterscheiden. Menschen können viele dieser Aufgaben intuitiv lösen, sie testen die visuelle Abstraktionsfähigkeit.
  • Die getesteten Modelle hatten erhebliche Schwierigkeiten, die Rätsel zu lösen. GPT-4o konnte nur 21 von 100 Problemen lösen, andere Modelle wie Claude, Gemini und LLaVA schnitten noch schlechter ab. Die Forschenden sehen eine große Kluft zwischen menschlicher und maschineller visueller Intelligenz und stellen gängige Logik-Benchmarks in Frage.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!