KI-Forschung

AVIS zeigt Googles Fortschritte bei der KI-gestützten Bildersuche

Maximilian Schreiner

Midjourney prompted by THE DECODER

Google AVIS beantwortet Fragen zu Bildern, deren Informationen nicht leicht zugänglich sind, etwa das Gründungsdatum einer Fluggesellschaft oder das Baujahr eines Autos.

Fortschritte in großen Sprachmodellen und ihre Verknüpfung mit Computer-Vision-Modellen haben multimodale Fähigkeiten für Aufgaben wie Bildunterschriften und die Beantwortung visueller Fragen ermöglicht. Diese visuellen Sprachmodelle (VLMs) haben jedoch immer noch Probleme mit komplexen visuellen Schlussfolgerungen in der realen Welt, die externes Wissen erfordern - "visuelle Informationssuche" genannt.

Einige Beispiele für die Art von Fragen, die AVIS zu beantworten versucht. | Bild: Google

Um diese Einschränkung zu überwinden, haben Google-Forschende eine neue Methode namens AVIS entwickelt, die Googles PALM mit Werkzeugen für Computer Vision, Websuche und Bildsuche integriert.

Googles AVIS lernt von Menschen

Im Gegensatz zu früheren Systemen, die große Sprachmodelle mit Werkzeugen in einem starren zweistufigen Prozess kombinieren, nutzt AVIS diese flexibler für die Planung und Durchführung der Suche. So kann das Modell etwa Aktionen auf der Grundlage von Echtzeit-Feedback anpassen.

AVIS besteht aus drei Hauptkomponenten:

Der Planer und der Reasoner werden iterativ verwendet, wobei der Planer auf der Grundlage des aktualisierten Status des Reasoners über das nächste Werkzeug und die nächste Abfrage entscheidet. Dieser Prozess wird so lange fortgesetzt, bis der Reasoner feststellt, dass genügend Informationen vorhanden sind, um die endgültige Antwort zu geben.

Bild: Google

Drei Arten von Werkzeugen sind ebenfalls integriert:

Um herauszufinden, wie diese Fähigkeiten am besten genutzt werden können, führten die Forschenden eine Studie durch, bei der Personen dieselben Fragen mit denselben Hilfsmitteln beantworteten. Die Studie identifizierte gemeinsame Handlungsabläufe, an denen sich AVIS in seinem Verhalten orientiert.

Bild: Google

AVIS erreicht State-of-the-Art ohne Finetuning

Im Infoseek-Datensatz erreichte AVIS eine Genauigkeit von 50,7 % und übertraf damit deutlich fein abgestimmte visuelle Sprachmodelle wie OFA und PaLI. Auf dem OK-VQA-Datensatz erreichte AVIS mit wenigen Beispielen eine Genauigkeit von 60,2 % und übertraf damit die meisten früheren Arbeiten und näherte sich laut Google fein abgestimmten Modellen an.

In Zukunft will das Team sein Framework auf andere logische Aufgaben anwenden und herausfinden, ob diese Fähigkeiten auch von einfacheren Sprachmodellen erreicht werden können, da das verwendete PALM-Modell mit 540 Milliarden Parametern sehr rechenintensiv ist.

Quellen: