Inhalt
summary Zusammenfassung

Google AVIS beantwortet Fragen zu Bildern, deren Informationen nicht leicht zugänglich sind, etwa das Gründungsdatum einer Fluggesellschaft oder das Baujahr eines Autos.

Anzeige

Fortschritte in großen Sprachmodellen und ihre Verknüpfung mit Computer-Vision-Modellen haben multimodale Fähigkeiten für Aufgaben wie Bildunterschriften und die Beantwortung visueller Fragen ermöglicht. Diese visuellen Sprachmodelle (VLMs) haben jedoch immer noch Probleme mit komplexen visuellen Schlussfolgerungen in der realen Welt, die externes Wissen erfordern - "visuelle Informationssuche" genannt.

Einige Beispiele für die Art von Fragen, die AVIS zu beantworten versucht. | Bild: Google

Um diese Einschränkung zu überwinden, haben Google-Forschende eine neue Methode namens AVIS entwickelt, die Googles PALM mit Werkzeugen für Computer Vision, Websuche und Bildsuche integriert.

Googles AVIS lernt von Menschen

Im Gegensatz zu früheren Systemen, die große Sprachmodelle mit Werkzeugen in einem starren zweistufigen Prozess kombinieren, nutzt AVIS diese flexibler für die Planung und Durchführung der Suche. So kann das Modell etwa Aktionen auf der Grundlage von Echtzeit-Feedback anpassen.

Anzeige
Anzeige

AVIS besteht aus drei Hauptkomponenten:

  • Einen Planer, der die nächste Aktion (API-Aufruf und Abfrage) via Sprachmodell bestimmt
  • Ein Arbeitsspeicher, der Informationen aus vergangenen API-Ausführungen speichert
  • Ein Reasoner, der API-Ausgaben via Sprachmodell verarbeitet, um nützliche Informationen zu extrahieren

Der Planer und der Reasoner werden iterativ verwendet, wobei der Planer auf der Grundlage des aktualisierten Status des Reasoners über das nächste Werkzeug und die nächste Abfrage entscheidet. Dieser Prozess wird so lange fortgesetzt, bis der Reasoner feststellt, dass genügend Informationen vorhanden sind, um die endgültige Antwort zu geben.

Bild: Google

Drei Arten von Werkzeugen sind ebenfalls integriert:

  • Computer-Vision-Tools zum Extrahieren visueller Informationen aus Bildern
  • Ein Web-Suchwerkzeug zum Abrufen von Wissen und Fakten in der offenen Welt
  • Ein Bildsuchwerkzeug zum Lesen relevanter Informationen aus Metadaten, die mit visuell ähnlichen Bildern verbunden sind

Um herauszufinden, wie diese Fähigkeiten am besten genutzt werden können, führten die Forschenden eine Studie durch, bei der Personen dieselben Fragen mit denselben Hilfsmitteln beantworteten. Die Studie identifizierte gemeinsame Handlungsabläufe, an denen sich AVIS in seinem Verhalten orientiert.

Bild: Google

AVIS erreicht State-of-the-Art ohne Finetuning

Im Infoseek-Datensatz erreichte AVIS eine Genauigkeit von 50,7 % und übertraf damit deutlich fein abgestimmte visuelle Sprachmodelle wie OFA und PaLI. Auf dem OK-VQA-Datensatz erreichte AVIS mit wenigen Beispielen eine Genauigkeit von 60,2 % und übertraf damit die meisten früheren Arbeiten und näherte sich laut Google fein abgestimmten Modellen an.

Empfehlung

In Zukunft will das Team sein Framework auf andere logische Aufgaben anwenden und herausfinden, ob diese Fähigkeiten auch von einfacheren Sprachmodellen erreicht werden können, da das verwendete PALM-Modell mit 540 Milliarden Parametern sehr rechenintensiv ist.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Googles Autonomous Visual Information Seeking (AVIS) ist eine neue Methode, die große Sprachmodelle mit Computer Vision, Websuche und Bildsuchwerkzeugen integriert, um selbstständig nach visuellen Informationen zu suchen und komplexe Fragen zu Bildern zu beantworten.
  • Das AVIS-System besteht aus drei Hauptkomponenten: einem Planer, der auf Basis des Sprachmodells über die nächste Aktion entscheidet, einem Arbeitsspeicher, der Informationen speichert, und einem Reasoner, der die Ausgabe verarbeitet und nützliche Informationen extrahiert. Darüber hinaus wird eine Vielzahl von Werkzeugen verwendet.
  • In den Infoseek- und OK-VQA-Datensätzen erreichte AVIS eine hohe Genauigkeit, die fein abgestimmte visuelle Sprachmodelle übertraf und ohne Feinabstimmung an die besten Ergebnisse heranreichte. Das Team plant, diesen Rahmen für andere logische Aufgaben zu erforschen und mit leichteren Sprachmodellen zu experimentieren, da das aktuelle Modell sehr rechenintensiv ist.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!