Inhalt
summary Zusammenfassung

Google zeigt Spotlight, ein multimodales KI-Modell, das mobile Interfaces verstehen kann. Damit sollen Barrierefreiheit und Automatisierung verbessert werden.

Das Unternehmen hat bereits in der Vergangenheit spezialisierte Modelle vorgestellt, die beispielsweise Bildschirminhalte zusammenfassen, bedienbare Elemente erkennen oder einfache Befehle ausführen können. Diese Modelle nutzten laut Google neben visuellen Daten vor allem Metadaten mobiler Webseiten, die aber nicht immer verfügbar und oft unvollständig sind.

Mit Spotlight trainiert das Google-Team daher ein multimodales KI-Modell, das ausschließlich mit visuellen Informationen arbeitet.

Googles Spotlight nutzt Vision Transformer und T5-Sprachmodell

Spotlight besteht aus einem vortrainierten Vision Transformer und einem vortrainierten T5-Sprachmodell. Es wird von Google mit zwei Datensätzen trainiert, die insgesamt 2,5 Millionen mobile UI Screens und 80 Millionen Webseiten umfassen. So profitiert das KI-Modell von den allgemeinen Fähigkeiten der großen Modelle.

Anzeige
Anzeige

Zusätzlich verwendet Google ein MLP-Netz, um einzelne Regionen auf einem Screenshot zu repräsentieren und für die Verarbeitung zu extrahieren, zum Beispiel um klickbare Buttons zu erkennen.

Video: Google

Das Team trainiert zwei verschiedene Modellgrößen (619 Millionen und 843 Millionen Parameter) für jede getestete Aufgabe einzeln und einmal für alle Aufgaben. Die Aufgaben umfassen die Beschreibung einzelner Elemente, der gesamten sichtbaren Seite oder die Erkennung von Bedienelementen.

Die spezialisierten Spotlight-Modelle sind allen älteren UI-Expertenmodellen von Google deutlich überlegen. Das Modell, das auf allen vier Aufgaben trainiert wurde, verliert zwar an Leistung, ist aber immer noch konkurrenzfähig, so das Team.

Google will Spotlight skalieren

In den Visualisierungen kann Google zeigen, dass Spotlight z.B. bei dem Befehl "Wähle das Chelsea Team" auf dem Screenshot sowohl auf das Bedienelement als auch auf den Text Aufmerksamkeit richtet. Der multimodale Ansatz funktioniert also.

Empfehlung
Bild: Google

Im Vergleich zu anderen multimodalen Modellen wie Flamingo ist Spotlight relativ klein. Das größere der beiden Spotlight-Modelle zeigt bereits eine bessere Performance als das kleinere. Das Modell könnte also weiter skaliert werden und so noch deutlich besser werden.

"Spotlight lässt sich leicht auf andere UI-Aufgaben anwenden und kann viele Interaktions- und User-Experience-Aufgaben vorantreiben", schreibt das Team.

Googles UI-Modell könnte in Zukunft vielleicht die Grundlage für eine zuverlässige Sprachsteuerung von Apps und mobilen Webseiten auf Android-Smartphones bilden oder andere Automatisierungsaufgaben übernehmen. Wie so etwas im Webbrowser aussehen könnte, hat das Start-up Adept im vergangenen Jahr mit dem Action Transformer gezeigt.

Mehr Informationen gibt es in Googles Blog-Beitrag zu Spotlight.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google Spotlight erkennt UI-Elemente und andere Seiteninhalte auf Screenshots von mobilen Seiten oder Apps ohne Zugriff auf Metadaten.
  • Das multimodale Modell basiert auf Vision Transformer für maschinelles Sehen, einem T5-Sprachmodell und zusätzlichem Training mit Millionen von Beispielen.
  • Spotlight soll die Barrierefreiheit und Automatisierung mobiler Inhalte unterstützen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!