ILLUME: Können KI-Modelle lernen, warum eine Giraffe eine Giraffe ist?

29. April 2023

Brack, Schramowski et al.

Multimodale KI-Modelle können Bilder beschreiben und Fragen dazu beantworten - aber ihre Antworten sind nicht immer sinnvoll. Können sie vom Menschen lernen?

Sogenannte "Vision-Language Models" (VLMs) verbinden Transformer-basierte Sprachmodelle mit Computer-Vision und können dadurch etwa Bilder beschreiben, Fragen zu ihnen beantworten oder umgekehrt einschätzen, wie gut eine Bildbeschreibung zu einem Bild passt. Es existieren unterschiedliche Architekturen mit unterschiedlichen Kapazitäten, Beispiele sind etwa OpenAIs CLIP, Deepminds Flamingo, das kürzlich veröffentliche MiniGPT-4 oder Aleph Alphas MAGMA.

Die meisten VLMs basieren heute auf einem großen Sprachmodell, das noch nicht durch Methoden wie Instruction Tuning und Reinforcement Learning mit menschlichem Feedback an menschliche Erwartungen angepasst wurde. Dies hat zur Folge, dass VLMs ihre Ausgaben oft in einer Weise begründen, die sich deutlich von den Begründungen unterscheidet, die Menschen auf die gleiche Frage geben würden. Forschende der TU Darmstadt, von Hessian.AI, des Centre for Cognitive Science Darmstadt, Aleph Alpha, LAION und des DFKI zeigen in einer neuen Methode, wie VLMs mit menschlichem Feedback näher an menschliche Begründungen herangeführt werden können.

ILLUME soll VLMs "rationalisieren"

Das Team nennt die Methode ILLUME (InteractiveLy RationaLizing Vision-LangUage ModEls), ein Finetuning-Schema "zur Übertragung von Schlussfolgerungsfähigkeiten von Sprachmodellen auf VLMs". Die Methode setzt auf drei Schritte: (1) Das VLM generiert mehrere mögliche Begründungen für eine Antwort auf eine Frage zu einem Bild, z. B. "Q: Was für ein Tier ist auf dem Foto zu sehen? - A: Eine Giraffe, weil...".

(2) Menschen wählen die passende Begründung aus, etwa "...weil sie einen langen Hals hat." (3) Das VLM wird mit allen Fällen trainiert, für die mindestens eine zutreffende Erklärung vorliegt.

Das Verfahren wird so oft wiederholt, bis für alle Fälle eine angemessene Begründung vorliegt oder keine Fortschritte mehr erzielt werden.

Nach Ansicht des Teams könnte das menschliche Feedback theoretisch auch durch ein Belohnungsmodell wie im Fall von ChatGPT ersetzt werden, aber "dies könnte kostspielige menschliche Arbeitskraft erfordern und ist von Natur aus begrenzt".

ILLUME reduziert benötigte Trainingsdaten deutlich

Der Prozess verbessert die Leistung des Modells ausschließlich auf der Grundlage der vom Modell generierten Stichproben, die durch menschliches Feedback ausgewählt werden. Dabei werde das Modell interaktiv an menschliche Präferenzen angepasst und Rationalisierungsfähigkeiten herausgearbeitet. Eine empirische Evaluation zeige, dass ILLUME latente Fähigkeiten des Sprachmodells aufdeckt und verstärkt - und so insgesamt bessere Begründungen liefert.

Eine Frage zu einem Bild, eine menschliche Begründung und verschiedene von KI-Modellen generierte Erklärungen. ILLUME liefert eine Antwort, die menschlichen Begründungen am nächsten kommt. | Bild: Brack, Schramowski et al.

Ein großer Vorteil der Methode: Das Team konnte zeigen, dass ein mit ILLUME trainiertes MAGMA-VLM mit deutlich weniger Finetuning-Daten an die Leistung von Modellen herankommt, die mit bis zu fünfmal mehr Daten trainiert wurden.

Trotz aller Erfolge ist die Methode jedoch nicht in der Lage, den zugrunde liegenden Sprachmodellen Fähigkeiten zu entlocken, die sie nicht schon vorher besaßen. "Heutige LMs scheinen nicht in der Lage zu sein, aus wenigen Trainingsbeispielen logische Schlüsse zu ziehen. Daher ist es für VLMs, die von LMs abgeleitet sind, schwierig, logisches Denken ohne größere Erweiterungen von diesen zu übernehmen. Stattdessen argumentieren wir, dass der Ansatz, logisches Denken als reine Textgenerierungsaufgabe zu trainieren und zu evaluieren, inhärent fehlerhaft sein könnte".

Alle Informationen und Code zu ILLUME gibt es auf GitHub

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

ILLUME: Können KI-Modelle lernen, warum eine Giraffe eine Giraffe ist?

ILLUME soll VLMs "rationalisieren"

ILLUME reduziert benötigte Trainingsdaten deutlich

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.