Inhalt
newsletter Newsletter
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Googles erstes multimodales KI-Modell soll komplexe Suchanfragen beantworten können. Die ersten KI-gestützte Suchfeatures sollen schon in den kommenden Wochen ausrollen.

Im Mai 2021 stellte Google die multimodale Künstliche Intelligenz MUM (Multitask Unified Model) vor. Das KI-Modell folgt dem Trend multimodal trainierter Transformermodelle wie OpenAIs DALL-E oder CLIP. Es ist mit Text-, Bild- und Videodaten in 75 Sprachen trainiert.

Wenn es nach Google geht, stellt MUM die Zukunft der Suchmaschine dar. Die Künstliche Intelligenz soll deutlich leistungsstärker als das aktuell verwendete BERT-Modell sein und ein tieferes Verständnis der Welt haben.

Auf der eigenen „Search On"-Konferenz gab Google nun neue Details zu MUM bekannt und kündigte MUM-basierte Features für die Google-Suche an.

Anzeige
Anzeige

Googles multimodales KI-Modell findet die richtigen Socken

Um den Vorteil multimodaler Modelle zu verdeutlichen, greift Google auf ein simples Beispiel zurück: Die aktuelle Google-Suche weiß, wie ein Löwe aussieht, wie er klingt und wie man seinen Namen schreibt. MUM jedoch weiß zusätzlich, dass der Löwe – auch wenn er zu den Katzen gehört – kein gutes Haustier abgibt.

Diese Fähigkeit multimodaler Modelle, implizite Verbindungen zwischen verschiedenen Konzepten zu repräsentieren, zeigte auch OpenAIs Untersuchung der Neuronen von CLIP.

In der Praxis will Google diese Fähigkeit für bessere Suchergebnisse einsetzen und Nutzer:innen außerdem die Möglichkeit geben, multimodale Suchanfragen zu stellen, also etwa ein Bild mit einer Frage dazu. Auf der Konferenz zeigt Google dafür zwei Beispiele: bunte Socken finden und Tipps für die Fahrradreparatur sammeln.

Video: Google

In der ersten Demonstration scannt der Nutzer per Google Lens ein gemustertes Hemd und gibt anschließend per Texteingabe an Google die Aufgabe, Socken mit dem gleichen Muster zu finden.

Empfehlung

In einer zweiten Demonstration fotografiert er ein Bauteil eines Fahrrads und fragt nach Reparaturtipps. Die MUM-KI erkennt das Bauteil und schlägt passende YouTube-Tutorials vor. Das sei laut Google besonders praktisch, wenn man nicht einmal wisse, wie das kaputte Teil heißt.

Multimodale Suche: Google Lens wird Bestandteil der Google Suche

Um Nutzer:innen die kombinierte Suche per Bild- und Textanfrage zu ermöglichen, wird Google die eigene Bildanalyse-Software Lens in die Google App auf iOS und im Chrome-Webbrowser integrieren. Lens ist im Google-Universum zukünftig also stets verfügbar. Damit könne etwa direkt während des Scrollens durch Bilder eines Einrichtungs-Blogs nach Produkten in einem Bild gesucht werden, so Google.

Die multimodale Suche soll in den kommenden Monaten ausgerollt und bis dahin ausgiebig getestet werden. Google möchte wohl sicherstellen, dass die in riesigen KI-Modellen vorhandenen Vorurteile nicht bei Endnutzer:innen ankommen.

Wegen MUM: Google Suche bekommt neues Design

Google kündigt außerdem ein Redesign der Google Suche an. Eine neue „Things to know“ Box zeigt nützliche Informationen an, etwa Anleitungen oder weiterführende Tipps. Außerdem sollen Verfeinerungen der Suche vorgeschlagen und von MUM beigesteuerte, weiterführende Themenvorschläge angezeigt werden.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

MUM soll außerdem für Videos Themenvorschläge in der Suche anzeigen, auch solche Themen, die nicht direkt im Video genannt werden – das sei erst durch das multimodale Modell möglich, so Google. Einige dieser Features sollen bereits in den kommenden Wochen erscheinen.

Neben MUM zeigte Google weitere Verbesserungen für Google Maps, bessere Shopping-Features und ein Tool, das Städteplaner:innen anzeigt, wo sich eine Begrünung gegen Hitzewellen besonders lohnt.

Weiterlesen über Künstliche Intelligenz:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!