Multimodale KI: MUM ist die Zukunft der Google Suche

30. September 2021 Maximilian Schreiner

Eine Katze liegt in einem Waschbecken, mittig auf dem Bild steht ein Google-Sucheingabefenster mit der Suchphrase: "Design Tipps für kleine Bereiche"

Googles erstes multimodales KI-Modell soll komplexe Suchanfragen beantworten können. Die ersten KI-gestützte Suchfeatures sollen schon in den kommenden Wochen ausrollen.

Im Mai 2021 stellte Google die multimodale Künstliche Intelligenz MUM (Multitask Unified Model) vor. Das KI-Modell folgt dem Trend multimodal trainierter Transformermodelle wie OpenAIs DALL-E oder CLIP. Es ist mit Text-, Bild- und Videodaten in 75 Sprachen trainiert.

Wenn es nach Google geht, stellt MUM die Zukunft der Suchmaschine dar. Die Künstliche Intelligenz soll deutlich leistungsstärker als das aktuell verwendete BERT-Modell sein und ein tieferes Verständnis der Welt haben.

Auf der eigenen „Search On"-Konferenz gab Google nun neue Details zu MUM bekannt und kündigte MUM-basierte Features für die Google-Suche an.

Googles multimodales KI-Modell findet die richtigen Socken

Um den Vorteil multimodaler Modelle zu verdeutlichen, greift Google auf ein simples Beispiel zurück: Die aktuelle Google-Suche weiß, wie ein Löwe aussieht, wie er klingt und wie man seinen Namen schreibt. MUM jedoch weiß zusätzlich, dass der Löwe – auch wenn er zu den Katzen gehört – kein gutes Haustier abgibt.

Diese Fähigkeit multimodaler Modelle, implizite Verbindungen zwischen verschiedenen Konzepten zu repräsentieren, zeigte auch OpenAIs Untersuchung der Neuronen von CLIP.

In der Praxis will Google diese Fähigkeit für bessere Suchergebnisse einsetzen und Nutzer:innen außerdem die Möglichkeit geben, multimodale Suchanfragen zu stellen, also etwa ein Bild mit einer Frage dazu. Auf der Konferenz zeigt Google dafür zwei Beispiele: bunte Socken finden und Tipps für die Fahrradreparatur sammeln.

https://mixed.de/wp-content/uploads/2021/09/Google-Mum-Bike.mp4?_=1

Video: Google

In der ersten Demonstration scannt der Nutzer per Google Lens ein gemustertes Hemd und gibt anschließend per Texteingabe an Google die Aufgabe, Socken mit dem gleichen Muster zu finden.

In einer zweiten Demonstration fotografiert er ein Bauteil eines Fahrrads und fragt nach Reparaturtipps. Die MUM-KI erkennt das Bauteil und schlägt passende YouTube-Tutorials vor. Das sei laut Google besonders praktisch, wenn man nicht einmal wisse, wie das kaputte Teil heißt.

Multimodale Suche: Google Lens wird Bestandteil der Google Suche

Um Nutzer:innen die kombinierte Suche per Bild- und Textanfrage zu ermöglichen, wird Google die eigene Bildanalyse-Software Lens in die Google App auf iOS und im Chrome-Webbrowser integrieren. Lens ist im Google-Universum zukünftig also stets verfügbar. Damit könne etwa direkt während des Scrollens durch Bilder eines Einrichtungs-Blogs nach Produkten in einem Bild gesucht werden, so Google.

Die multimodale Suche soll in den kommenden Monaten ausgerollt und bis dahin ausgiebig getestet werden. Google möchte wohl sicherstellen, dass die in riesigen KI-Modellen vorhandenen Vorurteile nicht bei Endnutzer:innen ankommen.

Wegen MUM: Google Suche bekommt neues Design

Google kündigt außerdem ein Redesign der Google Suche an. Eine neue „Things to know“ Box zeigt nützliche Informationen an, etwa Anleitungen oder weiterführende Tipps. Außerdem sollen Verfeinerungen der Suche vorgeschlagen und von MUM beigesteuerte, weiterführende Themenvorschläge angezeigt werden.

MUM soll außerdem für Videos Themenvorschläge in der Suche anzeigen, auch solche Themen, die nicht direkt im Video genannt werden – das sei erst durch das multimodale Modell möglich, so Google. Einige dieser Features sollen bereits in den kommenden Wochen erscheinen.

Neben MUM zeigte Google weitere Verbesserungen für Google Maps, bessere Shopping-Features und ein Tool, das Städteplaner:innen anzeigt, wo sich eine Begrünung gegen Hitzewellen besonders lohnt.

Weiterlesen über Künstliche Intelligenz:

Quellen:

Google