KI-Sprachmodelle scheitern an einfachen visuellen Rätseln

Selbst die fortschrittlichsten KI-Bildmodelle scheitern an grundlegenden Aufgaben des visuellen Schlussfolgerns. Das zeigt eine aktuelle Studie der TU Darmstadt, in der verschiedene Vision Language Models (VLMs) mit sogenannten Bongard-Problemen konfrontiert wurden.

Die nach dem russischen Wissenschaftler Michail Bongard benannten Probleme bestehen aus zwölf einfachen Bildern in zwei Gruppen. Die Aufgabe besteht darin, die Regel zu finden, nach der sich die beiden Gruppen unterscheiden - eine Fähigkeit, die Menschen in der Regel intuitiv beherrschen. Die Rätsel testen das Abstraktionsvermögen.

Menschliche Fähigkeiten gefordert

Viele der Aufgaben sind für Menschen relativ einfach zu lösen - KI-Systeme scheitern dagegen selbst an einfachen Beispielen. Nach Angaben der Forschenden konnte selbst das beste getestete Modell, GPT-4, nur 21 von 100 dieser visuellen Rätsel lösen. Andere bekannte Modelle wie Claude, Gemini und LLaVA schnitten noch schlechter ab.

Vergleichende Darstellung von Bongard-Problemen mit vertikalen und horizontalen Mustern, inkl. Leistungstabelle verschiedener VLM-Modelle. — Aktuelle KI-Bildmodelle zeigen erhebliche Schwächen bei der Mustererkennung in Bongard-Problemen. Während Menschen leicht zwischen vertikalen und horizontalen Elementen unterscheiden können, scheitern selbst fortschrittliche VLMs wie GPT-4o an dieser grundlegenden Aufgabe. | Bild: Wüst et al.

Die Studie zeigt, dass KI-Systeme selbst an elementaren Aufgaben scheitern. Sei es die Drehrichtung einer Spirale oder die Unterscheidung von waagerechten und senkrechten Linien - die Modelle haben erhebliche Probleme bei der Lösung.

Testmatrix mit vier Bildsets: Spiralrichtungen, Ausrichtungen, Formenpositionen und geometrische Anordnungen mit Modellantworten. — Bei der Analyse einfacher visueller Konzepte wie Drehrichtungen oder räumlichen Beziehungen zeigen die VLMs inkonsistente Ergebnisse. Die Modelle haben besonders Schwierigkeiten bei der Interpretation von Spiralen und Orientierungen. | Bild: Wüst et al.

Auch wenn die Forschenden den KI-Modellen Auswahlmöglichkeiten für die richtigen Antworten gaben, verbesserten sich die Ergebnisse nur geringfügig. Erst als die Anzahl der möglichen Antworten stark eingeschränkt wurde, stieg die Erfolgsquote deutlich an - GPT-4 und Claude lösten dann immerhin 68 beziehungsweise 69 von 100 Aufgaben.

Leistungsvergleichstabelle von VLMs: GPT-4o, Claude, Gemini und LLaVA-Versionen bei verschiedenen Bongard-Problem-Varianten. — Die Leistungsdaten zeigen deutliche Grenzen aktueller VLMs: Selbst das beste Modell GPT-4o löst nur 21 von 100 klassischen Bongard-Problemen. Die Erfolgsquote steigt erst bei stark eingeschränkter Auswahlmöglichkeit. | Bild: Wüst et al.

Auch die Gründe für das Scheitern der Modelle haben die Wissenschaftler detailliert untersucht. Bei vier ausgewählten Problemstellungen zeigte sich, dass KI-Systeme manchmal schon bei der grundlegenden visuellen Wahrnehmung scheitern, noch bevor sie zum eigentlichen Denken und Schlussfolgern kommen. Eine eindeutige Ursache konnte jedoch nicht gefunden werden.

Große Lücke zwischen Mensch und Maschine

Die Ergebnisse zeigen laut den Forscherinnen und Forschern, dass zwischen menschlicher und maschineller visueller Intelligenz noch eine große Lücke klafft. Die Untersuchungen zeigten, dass aktuelle KI-Modelle trotz ihrer beeindruckenden Leistungen in anderen visuellen Benchmarks noch weit davon entfernt sind, visuelle Konzepte wirklich zu verstehen, heißt es in der Studie.

Die Ergebnisse werfen auch Fragen zur Bewertung von KI-Systemen auf. Das Forschungsteam empfiehlt, bestehende Benchmarks zu überdenken und zu hinterfragen, ob sie tatsächlich die tatsächlichen logischen Fähigkeiten der Modelle messen.

Die Studie wurde von der Technischen Universität Darmstadt in Zusammenarbeit mit der Eindhoven University of Technology und dem Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) durchgeführt. Sie wurde unter anderem vom Bundesministerium für Bildung und Forschung und der Europäischen Union gefördert.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI-Forschung

KI-Sprachmodelle scheitern an einfachen visuellen Rätseln

Menschliche Fähigkeiten gefordert

Große Lücke zwischen Mensch und Maschine

DOOM auf dem Toaster war witzig, auf KI ist es bahnbrechend

In-Context-Learning von Sprachmodellen braucht sich vor Fine-Tuning nicht zu verstecken

Ex-OpenAI-Forscher erklärt das Rückwärtsrennen bei KI-Modellen

Sprachmodelle können große Dokumente laut neuem Benchmark nicht zuverlässig verarbeiten

Metas KI-Chatbot lädt Senior zu fiktivem Treffen ein – mit tödlichem Ausgang

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

KI-Sprachmodelle scheitern an einfachen visuellen Rätseln

Menschliche Fähigkeiten gefordert

Große Lücke zwischen Mensch und Maschine

Artikel teilen

Bankverbindung