Inhalt
summary Zusammenfassung

Forscher der UC Berkeley haben einen Benchmark entwickelt, der die Fähigkeit von KI-Modellen testet, relevante Informationen aus einer großen Menge von Bildern zu extrahieren. Die Ergebnisse zeigen die Schwächen aktueller Systeme auf.

Anzeige

Das Forschungsteam von Berkeley Artificial Intelligence Research (BAIR) hat mit "Visual Haystacks" (VHS) einen neuen Benchmark vorgestellt, der die Fähigkeiten von KI-Modellen zur Verarbeitung großer Bildmengen auf die Probe stellt. Der Test umfasst etwa 1.000 binäre Frage-Antwort-Paare, wobei jedes Set zwischen einem und 10.000 Bilder enthält.

Der Benchmark besteht aus zwei Aufgaben: In der "Single-Needle"-Aufgabe ist nur ein relevantes "Nadel"-Bild im "Heuhaufen" der Bilder versteckt. Bei "Multi-Needle" sind es zwei bis fünf Bilder. Die Fragen lauten entsprechend, ob das gesuchte Objekt in dem einen beziehungsweise in allen oder einem der relevanten Bilder vorhanden ist.

Die Forscher testeten verschiedene Open Source und proprietäre Modelle wie LLaVA-v1.5, GPT-4o, Claude 3 Opus und Gemini-v1.5-pro. Zusätzlich wurde ein Baseline-Modell verwendet, das zunächst Bildunterschriften mit LLaVA generiert und dann die Frage anhand des Textinhalts mit Llama 3 beantwortet.

Anzeige
Anzeige

Die Evaluierung zeigt, dass die Modelle Schwierigkeiten haben, irrelevante visuelle Informationen herauszufiltern. Ihre Leistung nimmt bei der "Single-Needle"-Aufgabe deutlich ab, je mehr Bilder der Datensatz enthält.

Single-Needle-Präzision. | Bild: Tsung-Han et al.

Einfache zweistufige Ansätze, bei denen zunächst Bildunterschriften generiert und dann per Sprachmodell ausgewertet werden, übertreffen bei "Multi-Needle" alle getesteten LMMs (Large Multimodal Model). Das deute auf eine unzureichende Fähigkeit der LMMs hin, Informationen aus mehreren Bildern zu verarbeiten, was wiederum den aktuellen Nutzen großer Kontextfenster relativiert.

Multi-Needle-Präzision. | Bild: Tsung-Han et al.

Außerdem reagieren die Modelle sehr empfindlich auf die Position des zu suchenden Bildes in der Sequenz: Befindet sich das relevante Bild in der Mitte der Sequenz, ist die Leistung deutlich schlechter, als wenn es sich am Anfang oder Ende befindet.

Bestehende LMMs zeigen einen Leistungsabfall von bis zu 41%, wenn das zu findendende Bild nicht ideal positioniert ist. Graue Kästen: Überschreitung der Kontextlänge. | Bild: Tsung-Han et al.

Die Forschenden ziehen hier einen Vergleich mit dem "Lost in the Middle"-Phänomen in der Sprachverarbeitung, bei dem Sprachmodelle besonders den Anfang und das Ende eines Dokuments berücksichtigen und den Inhalt in der Mitte des Dokuments eher ignorieren. Zudem haben LLMs auch bei Text ein Problem damit, aus großen Textmengen sinnvolle Schlüsse zu ziehen.

Bilder-RAG verbessert Antworten

Das Forschungsteam hat ein für die Bildverarbeitung optimiertes RAG-System namens MIRAGE (Multi-Image Retrieval Augmented Generation) entwickelt. Es komprimiert visuelle Token, verwendet einen gemeinsam trainierten Retriever, um irrelevante Bilder herauszufiltern, und wird mit Multi-Image-Reasoning-Daten trainiert. Auf diese Weise erreicht es eine bessere Leistung sowohl bei VHs als auch bei komplexeren Aufgaben zur Beantwortung visueller Fragen.

Empfehlung
Das von den Forschern entwickelte Bild-RAG-System Mirage kann LMMs ohne Bild-RAG bei Bildaufgaben übertreffen. | Bild: Tsung-Han et al.

Die Forscher empfehlen, dass künftige LMM-Projekte ihre Modelle mit dem Visual Haystacks Framework testen, um potenzielle Schwächen vor dem Einsatz zu identifizieren und zu beheben. Den Benchmark stellen sie bei Github zur Verfügung. Multi-Image Question Answering sei zudem ein wichtiger Schritt auf dem Weg zur Artificial General Intelligence (AGI).

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der UC Berkeley haben den neuen Benchmark "Visual Haystacks" (VHS) entwickelt, um die Fähigkeit von KI-Modellen zu testen, relevante Informationen aus einer großen Menge von Bildern zu extrahieren.
  • Die Evaluierung verschiedener Modelle zeigte, dass diese Schwierigkeiten haben, irrelevante visuelle Informationen herauszufiltern. Ihre Leistung bei der Suche nach einem relevanten Bild nahm deutlich ab, je mehr Bilder der Datensatz enthielt.
  • Auch die Position des Bildes im Datensatz hatte einen Einfluss – Bilder in der Mitte wurden eher ignoriert. Ein Phänomen, das bereits aus der Textverarbeitung mit LLMs bekannt ist. Das Forschungsteam entwickelte das RAG-System MIRAGE, das für die Bildverarbeitung optimiert ist und die Leistung steigern kann.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!