AVIS zeigt Googles Fortschritte bei der KI-gestützten Bildersuche

Midjourney prompted by THE DECODER

Google AVIS beantwortet Fragen zu Bildern, deren Informationen nicht leicht zugänglich sind, etwa das Gründungsdatum einer Fluggesellschaft oder das Baujahr eines Autos.

Fortschritte in großen Sprachmodellen und ihre Verknüpfung mit Computer-Vision-Modellen haben multimodale Fähigkeiten für Aufgaben wie Bildunterschriften und die Beantwortung visueller Fragen ermöglicht. Diese visuellen Sprachmodelle (VLMs) haben jedoch immer noch Probleme mit komplexen visuellen Schlussfolgerungen in der realen Welt, die externes Wissen erfordern - "visuelle Informationssuche" genannt.

Einige Beispiele für die Art von Fragen, die AVIS zu beantworten versucht. | Bild: Google

Um diese Einschränkung zu überwinden, haben Google-Forschende eine neue Methode namens AVIS entwickelt, die Googles PALM mit Werkzeugen für Computer Vision, Websuche und Bildsuche integriert.

Googles AVIS lernt von Menschen

Im Gegensatz zu früheren Systemen, die große Sprachmodelle mit Werkzeugen in einem starren zweistufigen Prozess kombinieren, nutzt AVIS diese flexibler für die Planung und Durchführung der Suche. So kann das Modell etwa Aktionen auf der Grundlage von Echtzeit-Feedback anpassen.

AVIS besteht aus drei Hauptkomponenten:

Einen Planer, der die nächste Aktion (API-Aufruf und Abfrage) via Sprachmodell bestimmt
Ein Arbeitsspeicher, der Informationen aus vergangenen API-Ausführungen speichert
Ein Reasoner, der API-Ausgaben via Sprachmodell verarbeitet, um nützliche Informationen zu extrahieren

Der Planer und der Reasoner werden iterativ verwendet, wobei der Planer auf der Grundlage des aktualisierten Status des Reasoners über das nächste Werkzeug und die nächste Abfrage entscheidet. Dieser Prozess wird so lange fortgesetzt, bis der Reasoner feststellt, dass genügend Informationen vorhanden sind, um die endgültige Antwort zu geben.

Drei Arten von Werkzeugen sind ebenfalls integriert:

Computer-Vision-Tools zum Extrahieren visueller Informationen aus Bildern
Ein Web-Suchwerkzeug zum Abrufen von Wissen und Fakten in der offenen Welt
Ein Bildsuchwerkzeug zum Lesen relevanter Informationen aus Metadaten, die mit visuell ähnlichen Bildern verbunden sind

Um herauszufinden, wie diese Fähigkeiten am besten genutzt werden können, führten die Forschenden eine Studie durch, bei der Personen dieselben Fragen mit denselben Hilfsmitteln beantworteten. Die Studie identifizierte gemeinsame Handlungsabläufe, an denen sich AVIS in seinem Verhalten orientiert.

AVIS erreicht State-of-the-Art ohne Finetuning

Im Infoseek-Datensatz erreichte AVIS eine Genauigkeit von 50,7 % und übertraf damit deutlich fein abgestimmte visuelle Sprachmodelle wie OFA und PaLI. Auf dem OK-VQA-Datensatz erreichte AVIS mit wenigen Beispielen eine Genauigkeit von 60,2 % und übertraf damit die meisten früheren Arbeiten und näherte sich laut Google fein abgestimmten Modellen an.

Empfehlung

KI-Forschung

Studie zeigt: "Test-Time Compute Scaling" ist der Weg zu besseren KI-Systemen

In Zukunft will das Team sein Framework auf andere logische Aufgaben anwenden und herausfinden, ob diese Fähigkeiten auch von einfacheren Sprachmodellen erreicht werden können, da das verwendete PALM-Modell mit 540 Milliarden Parametern sehr rechenintensiv ist.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

AVIS zeigt Googles Fortschritte bei der KI-gestützten Bildersuche

Googles AVIS lernt von Menschen

AVIS erreicht State-of-the-Art ohne Finetuning

Studie zeigt: "Test-Time Compute Scaling" ist der Weg zu besseren KI-Systemen

Transformer-KI zeigt überraschende Parallelen zur menschlichen Informationsverarbeitung

Googles Sprachmodell Gemini 2.5 Pro spielt Pokémon Blue durch - mit technischen Krücken

Beliebter KI-Benchmark bevorzugt angeblich systematisch große Anbieter

US-Denkfabrik warnt vor "umgekehrtem Brain Drain" in Chinas KI-Sektor

Umstrittenes KI-Manipulationsexperiment der Universität Zürich auf Reddit endet ohne Paper

OpenAIs o3 ist weniger AGI als ursprünglich angekündigt

AVIS zeigt Googles Fortschritte bei der KI-gestützten Bildersuche

Googles AVIS lernt von Menschen

AVIS erreicht State-of-the-Art ohne Finetuning

Artikel teilen

Bankverbindung