Benchmark zeigt: Wenn KI-Modellen visuelle Daten fehlen, wird einfach geraten

11. April 2026

Nano Banana Pro prompted by THE DECODER

ProactiveBench testet, ob multimodale Sprachmodelle bei unzureichenden visuellen Informationen um Nutzerunterstützung bitten. 22 getestete Modelle zeigen kaum proaktives Verhalten, doch ein einfaches Reinforcement-Learning-Training weist einen möglichen Ausweg.

Wenn ein Mensch ein verdecktes Objekt identifizieren soll, bittet er jemanden, das Hindernis wegzuräumen. Multimodale Sprachmodelle tun das nicht. Stattdessen halluzinieren sie eine falsche Antwort oder verweigern jede Aussage. Der neue Benchmark ProactiveBench untersucht systematisch, ob aktuelle KI-Modelle in solchen Situationen gezielt um Hilfe bitten können.

Diagramm zeigt den Unterschied zwischen reaktiven und proaktiven Modellen. Auf die Frage, was sich hinter blauen Blöcken verbirgt, antworten reaktive Modelle falsch mit "basketball" oder "I don't know". Ein proaktives Modell bittet darum, die Blöcke zu verschieben, und erkennt danach korrekt eine Orange. — Reaktive Modelle halluzinieren eine falsche Antwort oder verweigern die Aussage. Ein proaktives Modell würde stattdessen bitten, die Blöcke zu verschieben, und könnte danach korrekt antworten. | Bild: De Min et al.

Der Benchmark nutzt sieben bestehende Datensätze und verwandelt sie in Testszenarien, die ohne menschliche Hilfe nicht lösbar sind. Die Modelle sollen etwa verdeckte Objekte identifizieren, verrauschte Bilder verbessern, grobe Skizzen interpretieren oder Kamerawinkel ändern. Insgesamt umfasst ProactiveBench mehr als 108.000 Bilder in 18.000 Samples. Ein Filtermechanismus entfernt Aufgaben, die Modelle schon im ersten Anlauf lösen können. Wer bestehen will, muss proaktiv nach zusätzlichen Informationen fragen.

Übersichtsgrafik zeigt die sieben Szenarien von ProactiveBench mit Beispielbildern. Für jedes Szenario wird gezeigt, wie ein proaktives Modell um eine Aktion bittet und danach korrekt antwortet, während ein reaktives Modell falsch antwortet oder sich enthält. Darunter stehen Statistiken zu Samplezahlen, Bildern und Kategorien je Datensatz. — ProactiveBench umfasst sieben Szenarien: verdeckte Objekte (ROD, VSOD), uninformative Blickwinkel (MVP-N), verrauschte Bilder (ImageNet-C), Skizzen (QuickDraw), zeitliche Mehrdeutigkeiten (ChangeIt) und Kamerabewegungen (MS-COCO). Proaktive Modelle fragen nach Hilfe, reaktive halluzinieren oder enthalten sich. | Bild: De Min et al.

Größere Modelle sind nicht proaktiver

Die Forscher evaluierten laut dem Paper 22 multimodale Sprachmodelle, darunter LLaVA-OV, Qwen2.5-VL, InternVL3 sowie GPT-4.1, GPT-5.2 und o4-mini. Im Referenz-Setting mit eindeutig sichtbaren Objekten lösen die Modelle durchschnittlich 79,8 Prozent der Aufgaben. In ProactiveBench bricht die Leistung gegenüber dem Referenz-Setting um mehr als 60 Prozent ein.

Am deutlichsten zeigt sich die Kluft beim ROD-Datensatz, bei dem Objekte hinter Blöcken versteckt sind: 98,3 Prozent im Referenz-Setting stehen 8,2 Prozent gegenüber. Die Modelle erkennen die Objekte, wenn sie sichtbar sind, fragen aber nicht danach, sie freizulegen.

Balkendiagramm vergleicht die durchschnittliche Genauigkeit von MLLMs im Referenz-Setting und in ProactiveBench über sieben Datensätze. Die größte Diskrepanz zeigt ROD mit 98,3 vs. 8,2 Prozent. Im Durchschnitt stehen 79,8 Prozent im Referenz-Setting nur 17,5 Prozent in ProactiveBench gegenüber. — Im Referenz-Setting mit sichtbaren Objekten erreichen die Modelle im Schnitt 79,8 Prozent Genauigkeit. In ProactiveBench, wo sie proaktiv nach Hilfe fragen müssten, fallen sie auf 17,5 Prozent. | Bild: De Min et al.

Einen Zusammenhang zwischen Modellgröße und Proaktivität fanden die Forscher nicht. InternVL3-1B übertrifft InternVL3-8B mit 27,1 gegenüber 12,7 Prozent. Das ältere LLaVA-1.5-7B schlägt das neuere LLaVA-OV-72B mit 24,8 gegenüber 13 Prozent. Auch das zugrunde liegende Sprachmodell macht einen Unterschied. LLaVA-NeXT mit Vicuna erreicht 19,3 Prozent, mit Mistral nur 4,5 Prozent. Geschlossene Modelle wie GPT-4.1 zeigen die beste Genauigkeit. Ihre auffällig starken COCO-Werte werten die Forscher allerdings als mögliche Datenkontamination.

Scheinbare Proaktivität ist oft nur Ratebereitschaft

Einige Modelle wirken proaktiver als andere. Die Forscher überprüften das, indem sie gültige proaktive Vorschläge durch ungültige ersetzten, etwa "Spule das Video zurück" für eine Skizzen-Aufgabe. Modelle, die zuvor proaktiv erschienen, wählen auch die sinnlosen Vorschläge. LLaVA-NeXT Vicuna erhöht die Wahrscheinlichkeit dafür sogar von 37 auf 49 Prozent. Die scheinbare Proaktivität spiegelt laut den Forschern eine geringere Neigung zur Enthaltung wider, kein tieferes Verständnis.

Balkendiagramm zeigt die Veränderung der Aktionsverteilung bei sechs Modellen, wenn gültige proaktive Vorschläge durch ungültige ersetzt werden. LLaVA-OV-0.5B und InternVL3-1B wählen weiterhin häufig proaktive Optionen, während LLaVA-OV-7B und InternVL3-8B ihre proaktiven Vorschläge um 86 bzw. 90 Prozent reduzieren. — Werden gültige proaktive Vorschläge durch ungültige ersetzt, wählen scheinbar proaktive Modelle wie LLaVA-OV-0.5B oder InternVL3-1B diese trotzdem. Ihre Proaktivität ist eher Ratebereitschaft als Verständnis. | Bild: De Min et al.

Auch explizite Hinweise in den Prompts und Konversationshistorien lösen das Problem nicht. Hinweise erhöhen zwar die Rate proaktiver Vorschläge, doch die Genauigkeit steigt zwar auf 25,8 Prozent, übertrifft das Zufallsniveau im Durchschnitt aber nicht. In 16 Prozent der Fälle wählen die Modelle blind proaktive Vorschläge bis zum Maximum erlaubter Schritte. Konversationshistorien verschlechtern die Ergebnisse sogar: Die Modelle wiederholen die proaktiven Aktionen aus der Historie, statt aus ihnen zu lernen.

Reinforcement Learning lehrt Modelle, um Hilfe zu bitten

Dass Proaktivität durch Training aber erlernbar ist, zeigen die Forscher in einem weiteren Experiment. Sie trainierten LLaVA-NeXT-Mistral-7B und Qwen2.5-VL-3B mittels Group-Relative Policy Optimization (GRPO) auf etwa 27.000 Beispielen. Die Belohnungsfunktion setzt korrekte Vorhersagen höher an als proaktive Vorschläge, damit das Modell nur bei echter Unsicherheit nach Hilfe fragt.

Beide Modelle übertrafen nach dem Training alle zuvor evaluierten MLLMs, einschließlich o4-mini (37,4 bzw. 38,6 vs. 34,0 Prozent). Die gelernte Proaktivität generalisiert auf Szenarien außerhalb des Trainings: Bei ChangeIt stieg die Genauigkeit von Qwen2.5-VL-3B von 12,4 auf 55,6 Prozent. Wird die Belohnung für proaktive Vorschläge aber auf das gleiche Niveau wie für korrekte Vorhersagen gesetzt, kippt das Verhalten: Das Modell generiert fast nur noch proaktive Vorschläge und fällt auf 5,4 Prozent zurück.

Trotz der Fortschritte bleibt eine deutliche Lücke zum Referenz-Setting (40,7 vs. 75,1 Prozent). Die Forscher veröffentlichen ProactiveBench als Open Source und sehen darin einen ersten Schritt hin zu Modellen, die erkennen, wann ihnen Informationen fehlen, und nach Unterstützung fragen, statt falsche Antworten zu generieren.

Modelle wissen nicht, was sie nicht wissen

ProactiveBench adressiert ein Problem, das sich auch in anderen aktuellen Studien zeigt: Multimodale Sprachmodelle scheitern systematisch am Umgang mit Unsicherheit. Der WorldVQA-Benchmark von Moonshot AI zeigte kürzlich, dass selbst die besten Modelle bei der visuellen Objekterkennung an der 50-Prozent-Marke scheitern und dabei systematisches Übervertrauen zeigen.

Eine Stanford-Studie zum sogenannten Mirage-Effekt ging noch weiter. Multimodale Modelle wie GPT-5 oder Gemini 3 Pro beschrieben dort selbstbewusst visuelle Details und stellten medizinische Diagnosen, obwohl gar kein Bild vorlag. Auf etablierten Benchmarks erreichten sie 70 bis 80 Prozent ihrer Leistung allein aus Textmustern und Vorwissen. Die Modelle tun also so, als hätten sie etwas gesehen, und merken nicht, dass die visuelle Grundlage fehlt.

Forscher der Sapienza Universität Rom wiesen mit ihrer "Spilled Energy"-Methode nach, dass Halluzinationen messbare Spuren in den Berechnungen eines Modells hinterlassen. Eine Studie zur Schwierigkeitseinschätzung von Prüfungsfragen ergab zudem, dass Sprachmodelle ihre eigenen Grenzen nicht zuverlässig erkennen. Das gemeinsame Muster: Aktuelle KI-Modelle wissen nicht, was sie nicht wissen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 16 % Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren