Ein Deepmind-Entwickler gibt bei Twitter einen Einblick in Googles Chat-KI-Labor und demonstriert eine Fähigkeit, die ChatGPT noch abgeht.
Im Mai stellte Deepmind Flamingo vor, ein multimodales KI-Modell, das Bildverarbeitung (Deepmind Perceiver) und Sprache (Deepmind Chinchilla) verknüpft. Dieses visuelle Sprachmodell verarbeitete beim Training Bilder samt dazugehöriger Texte und entwickelte auf diese Art ein rudimentäres Verständnis für die Motive auf Bildern.
Dank des Sprachmodells und über ein ergänzendes Dialog-Interface kann das Flamingo-System Rückfragen zum Bildinhalt beantworten und zu einem genaueren Ergebnis geführt oder zu Hintergrundinformationen befragt werden. Diese Multimodalität geht ChatGPT noch ab.
Knoblauch- oder Kartoffelpresse
Oriol Vinyals, Research Director und Deep Learning Lead bei der Google-Schwester Deepmind, zeigt jetzt bei Twitter eine eindrucksvolle neue Flamingo-Präsentation.
Als Ausgangspunkt dient ein visuell anspruchsvolles Foto der benutzten Kartoffelpresse seines Vaters: Flamingo vermutet zunächst einen Eiszerkleinerer und wird dann vom Nutzer durch zwei Rückmeldungen zum richtigen Ergebnis geführt. Auf Rückfrage erklärt Flamingo die Funktionsweise der Kartoffelpresse.
Schon im Mai zeigte Deepmind-Forscher Roman Ring Flamingos Bildanalyse- und Dialogfähigkeit anhand eines besonderen Fotos (siehe Tweet unten). Das Besondere daran ist der Humor, der sich erst durch kontextuelles und soziales Verständnis erschließt: Präsident Obama stellt heimlich seinen Fuß auf die Waage, damit die Person auf der Waage ein höheres Gewicht sieht. Die Menschen in der Szene lachen darüber.
Besonders ist das Foto auch, da Teslas früherer KI-Chef Andrej Karpathy vor rund zehn Jahren schrieb, dass die KI-Branche noch "sehr, sehr weit" davon entfernt sei, den Inhalt dieses Bildes zu verstehen. Kann Flamingo den Bildwitz erfassen?
10 yrs ago @karpathy wrote a blog post on the outlook of AI: https://t.co/bbp5in8tfc in which he describes how difficult it would be for an AI to understand a given photo, concluding "we are very, very far and this depresses me."
Today, our Flamingo steps up to the challenge. pic.twitter.com/JFmrMZTrUw— Roman Ring (@Inoryy) May 6, 2022
Karpathy bezeichnete die Flamingo-Demonstration im Mai als "nicht überzeugend, aber niedlich". Er kritisierte falsche und teils ungenaue Antworten und die starke Führung durch Fragen. Anhand der Demo sei nicht klar, ob Flamingo den Witz wirklich verstünde - aber das System sei "eindeutig auf dem Weg dorthin".
Steht Google unter ChatGPT-Druck?
Derzeit behaupten einige Menschen in redaktionellen und sozialen Medien, dass ChatGPT eine Bedrohung für Googles Kerngeschäft Internetsuche sei. Auch die New York Times berichtet, dass Google wegen ChatGPT "Code Red" ausgegeben hat, da das System eine grundlegende Bedrohung für Googles-Geschäfte darstelle. Und das, obwohl ChatGPT derzeit in erster Linie darin brilliert, möglichst fiktionale und/oder generische Texte zu generieren oder einfachen Code zu reparieren, anstatt verlässliche Antworten auf Fragen zu geben.
Das ChatGPT-Erlebnis ist zweifelsohne beeindruckend, aber für eine Google-Konkurrenz fehlt es an Verlässlichkeit bei den Fakten. Selbst wenn OpenAI eine hohe Verlässlichkeit erreichen würde, gäbe es viele weitere offene Fragen bezüglich Aktualität, Quellentransparenz und Copyright sowie Skalierung, wie ich an anderer Stelle argumentiere.
Die neuerliche Flamingo-Demo zeigt, dass Google vorbereitet wäre, schnell auf ChatGPT zu antworten - rein technisch. Neben Flamingo hat Deepmind noch den wohl ähnlich leistungsfähigen Chatbot Sparrow am Start, während Google selbst mit LaMDA am Assistant 2.0 arbeiten dürfte. Zudem hat Google die meiste Erfahrung beim Einsatz von Sprach-KI für Suche, das schreibt sogar Metas KI-Chef Yann LeCun.
True.
Google is in much better position to bring the latest NLP tech to search than any LLM company is to building a search engine (including OpenAI).
And yes, Google has been doing it for years.
Just as Facebook has been doing it for content ranking. https://t.co/QghhUqeMHo— Yann LeCun (@ylecun) December 20, 2022
Auch wenn OpenAIs ChatGPT keine technische Herausforderung für Google sein mag, könnte es dennoch eine wirtschaftliche Bedrohung darstellen: Google verdient sein Geld mit Werbung.
Ein Großteil des Umsatzes, circa 39 Milliarden von rund 70 Milliarden US-Dollar in Q3 2022, kommt aus Anzeigen in der Google Search. Eine neue Form der Suche über Chatbot-Systeme müsste auf dem Niveau der Google-Suche monetarisierbar sein, damit Google nicht an Marktwert verliert.
In dieser Hinsicht könnte Google also tatsächlich Druck durch ChatGPT spüren: Der Konzern könnte das Feld der Internetsuche auch im Chatbot-Zeitalter weiter dominieren, aber durch einen erzwungenen Systemwechsel dennoch viel Geld verlieren. OpenAI wird zudem von Microsoft unterstützt, das bei der Internetsuche fast nur dazugewinnen und deshalb volles Risiko gehen kann.