Inhalt
summary Zusammenfassung

BLIVA ist ein multimodales Sprachmodell, das Text in Bildern lesen kann. Das könnte es in verschiedenen realen Anwendungen nützlich machen.

Anzeige

Forschende der UC San Diego haben BLIVA entwickelt, ein Bildsprachmodell, das Bilder mit Text besser verarbeiten kann, als bisherige Ansätze. Bildsprachmodelle (VLMs) erweitern große Sprachmodelle (LLMs), indem sie Computer-Vision-Fähigkeiten integrieren, um etwa Fragen zu Bildern zu beantworten.

Solche multimodalen Modelle haben in Benchmarks zur Beantwortung offener visueller Fragen beeindruckende Fortschritte erzielt. Ein Beispiel ist GPT-4 von OpenAI, das in seiner multimodalen Form etwa Bildinhalte beschreiben kann. Diese Fähigkeit ist allerdings derzeit nur in der App "Be my Eyes" verfügbar.

Eine bedeutende Einschränkung aktueller Systeme liegt jedoch in ihrer (Un-)Fähigkeit, zuverlässig Bilder mit Text zu verarbeiten, die in realen Szenarien häufig vorkommen.

Anzeige
Anzeige

BLIVA kombiniert InstructBLIP und LLaVA

Um dieses Problem zu lösen, entwickelte das Team BLIVA, was für "BLIP with Visual Assistant" steht. BLIVA kombiniert Methoden von Salesforce InstructBLIP und Microsofts LLaVA (Large Language and Vision Assistant), um Text besser zu erkennen und gleichzeitig keine Bilddetails zu übersehen.

Bild: Hu, Xu et al.

BLIVA wurde mit etwa 550.000 Bild-Text-Paaren trainiert und anschließend mit 150.000 visuellen Frage-Antwort-Beispielen feingetuned, wobei der visuelle Encoder und das Sprachmodell eingefroren blieben.

Das Team zeigt, dass BLIVA die Verarbeitung von textreichen Bildern in Datensätzen wie OCR-VQA, TextVQA und ST-VQA deutlich verbessert. Zum Beispiel erreichte BLIVA eine Genauigkeit von 65,38 % bei OCR-VQA im Vergleich zu 47,62 % bei InstructBLIP.

Das neue System übertraf InstructBLIP auch bei sieben von acht allgemeinen, nicht textbezogenen VQA-Benchmarks. Das Team ist überzeugt, dass dies die Vorteile ihres Ansatzes auch außerhalb des Textverständnisses zeigt.

Das Team testete BLIVA mit YouTube-Miniaturansichten. | Bild: Hu, Xu et al.

Die Forschenden testeten BLIVA auch mit einem neuen Datensatz von YouTube-Thumbnails mit zugehörigen Fragen, der auf Hugging Face verfügbar ist. BLIVA erreichte eine Genauigkeit von 92 Prozent, was deutlich besser ist als frühere Methoden.

Empfehlung

Die Fähigkeit von BLIVA, Text auf Bildern wie Straßenschildern oder Lebensmittelverpackungen zu lesen, könnte auch praktische Anwendungen in vielen Branchen ermöglichen, so das Team. Vor kurzem haben Microsoft-Forschende einen multimodalen KI-Assistenten für die Biomedizin vorgestellt, der auf LLaVA basiert und LLaVA-med heißt.

Weitere Informationen und der Code sind auf dem BLIVA Github verfügbar, eine Demo ist auf Hugging Face verfügbar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der UC San Diego haben BLIVA entwickelt, ein Bildsprachmodell, das Text in Bildern hervorragend lesen kann und so reale Anwendungen in verschiedenen Branchen verbessert.
  • BLIVA kombiniert gelernte Query Embeddings aus Salesforce InstructBLIP und kodierte Patch Embeddings aus Microsofts LLaVA, um ein besseres visuelles Verständnis zu ermöglichen.
  • Das neue Modell übertraf andere Systeme in mehreren Datensätzen und hat potenzielle Anwendungen in Bereichen wie dem Lesen von Straßenschildern und Lebensmittelverpackungen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!