Deepmind Flamingo: KI zeigt besseres visuelles Verständnis

Deepminds Flamingo verbindet ein visuelles KI-Modell mit einem Sprachmodell. Künstliche Intelligenz soll so ein besseres visuelles Verständnis erhalten.

Große Sprachmodelle wie OpenAIs GPT-3 sind Few-Shot-Learner: Sie lernen anhand weniger Beispiele, eine Aufgabe zu erfüllen. Soll GPT-3 etwa Deutsch in Englisch übersetzen, lässt sich das Modell mit zwei bis drei Beispielübersetzungen entsprechend einstellen.

Dieses Few-Shot-Learning funktioniert, weil GPT-3 mit sehr vielen Daten vortrainiert ist. Das Nachtraining mit wenigen Beispielen ist dann vergleichbar mit einer Feinjustierung.

Deepmind zeigt jetzt Flamingo, eine Künstliche Intelligenz, die Sprachmodell und visuelles Modell miteinander verknüpft und dabei die Few-Shot-Fähigkeit auf die Bildanalyse anwendet.

Deepmind Flamingo setzt auf Chinchilla und Perceiver

Statt reiner Textbeispiele verarbeitet das visuelle Sprachmodell Flamingo in der Eingabe Beispielpaare von Bildern und Texten, etwa Fragen und erwartete Antworten zu einem Bild. Anschließend kann das Modell Fragen zu neuen Bildern oder Videos beantworten.

Als Beispiel nennt Deepmind die Identifikation und das Zählen von Tieren, etwa drei Zebras auf einem Bild. Ein traditionelles visuelles Modell, das nicht mit einem Sprachmodell verbunden ist, müsste für diese Aufgabe mit tausenden Beispielbildern neu trainiert werden. Flamingo benötigt dagegen nur einige wenige Beispielbilder mit passenden Textausgaben.

Flamingo lernt, mit dem Hunde-Beispiel den Satz über die Katze zu vervollständigen. | Bild: Deepmind

Flamingo verbindet einen mit Bildern und Text trainierten ResNet-Encoder mit einer Variante von Deepminds Sprachmodell Chinchilla. Die Verbindung wird durch Deepminds Perceiver ermöglicht, der die Ausgabe des visuellen Modells verarbeitet und an Attention-Layer vor dem Sprachmodell weitergibt.

Während des Flamingo-Trainings sind visuelles Modell und Sprachmodell eingefroren, um ihre Fähigkeit zu erhalten. Lediglich Perceiver und die Attention-Layer werden trainiert.

Flamingo zeigt einfaches Bildverständnis

In 16 getesteten Bildverständnis-Benchmarks schlägt Flamingo andere Few-Shot-Ansätze. In diesen Tests muss Flamingo etwa Hatespeech auf Memes erkennen, Objekte identifizieren und beschreiben oder Ereignisse in einem Video benennen.

Empfehlung

KI-Forschung

Philosoph David Chalmers: KI verstehen heißt, ihre Einstellungen zu erkennen

Mit nur 32 Beispielen und ohne Anpassung der Gewichte in den Modellen übertrifft Flamingo zudem in sieben Aufgaben die derzeit besten Methoden, die mit tausenden annotierten Beispielen feinjustiert wurden.

Flamingo hängt vergleichbare Systeme ab. | Bild: Deepmind

Flamingo kann außerdem mehr oder weniger sinnvolle Gespräche führen und dabei Informationen aus Bildern und Text verarbeiten. Im Dialog mit einem Menschen kann sich das Modell so auf Nachfrage, die auf einen möglichen Fehler hinweist, etwa eigenständig korrigieren.

Video: Deepmind

Die Ergebnisse repräsentieren laut den Forschenden einen wichtigen Schritt auf dem Weg zu einem allgemeinen visuellen Verständnis Künstlicher Intelligenz. Wie weit dieser Weg auch noch sein wird - die Verknüpfung großer KI-Modelle für multimodale Aufgaben wird dabei wohl eine tragende Rolle spielen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Deepmind Flamingo: KI zeigt besseres visuelles Verständnis

Deepmind Flamingo setzt auf Chinchilla und Perceiver

Flamingo zeigt einfaches Bildverständnis

Philosoph David Chalmers: KI verstehen heißt, ihre Einstellungen zu erkennen

Studie enthüllt "strategische Fingerabdrücke" von KI-Modellen im Spieltheorie-Klassiker

Sakana AI kombiniert mehrere KI-Modelle zur besseren Problemlösung

Alibaba Qwen VLo: Der nächste GPT-4o-Konkurrent ist nicht mehr Open Source

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Deepmind Flamingo: KI zeigt besseres visuelles Verständnis

Deepmind Flamingo setzt auf Chinchilla und Perceiver

Flamingo zeigt einfaches Bildverständnis

Artikel teilen

Bankverbindung