ILLUME: Können KI-Modelle lernen, warum eine Giraffe eine Giraffe ist?

Multimodale KI-Modelle können Bilder beschreiben und Fragen dazu beantworten - aber ihre Antworten sind nicht immer sinnvoll. Können sie vom Menschen lernen?

Sogenannte "Vision-Language Models" (VLMs) verbinden Transformer-basierte Sprachmodelle mit Computer-Vision und können dadurch etwa Bilder beschreiben, Fragen zu ihnen beantworten oder umgekehrt einschätzen, wie gut eine Bildbeschreibung zu einem Bild passt. Es existieren unterschiedliche Architekturen mit unterschiedlichen Kapazitäten, Beispiele sind etwa OpenAIs CLIP, Deepminds Flamingo, das kürzlich veröffentliche MiniGPT-4 oder Aleph Alphas MAGMA.

Die meisten VLMs basieren heute auf einem großen Sprachmodell, das noch nicht durch Methoden wie Instruction Tuning und Reinforcement Learning mit menschlichem Feedback an menschliche Erwartungen angepasst wurde. Dies hat zur Folge, dass VLMs ihre Ausgaben oft in einer Weise begründen, die sich deutlich von den Begründungen unterscheidet, die Menschen auf die gleiche Frage geben würden. Forschende der TU Darmstadt, von Hessian.AI, des Centre for Cognitive Science Darmstadt, Aleph Alpha, LAION und des DFKI zeigen in einer neuen Methode, wie VLMs mit menschlichem Feedback näher an menschliche Begründungen herangeführt werden können.

ILLUME soll VLMs "rationalisieren"

Das Team nennt die Methode ILLUME (InteractiveLy RationaLizing Vision-LangUage ModEls), ein Finetuning-Schema "zur Übertragung von Schlussfolgerungsfähigkeiten von Sprachmodellen auf VLMs". Die Methode setzt auf drei Schritte: (1) Das VLM generiert mehrere mögliche Begründungen für eine Antwort auf eine Frage zu einem Bild, z. B. "Q: Was für ein Tier ist auf dem Foto zu sehen? - A: Eine Giraffe, weil...".

(2) Menschen wählen die passende Begründung aus, etwa "...weil sie einen langen Hals hat." (3) Das VLM wird mit allen Fällen trainiert, für die mindestens eine zutreffende Erklärung vorliegt.

Das Verfahren wird so oft wiederholt, bis für alle Fälle eine angemessene Begründung vorliegt oder keine Fortschritte mehr erzielt werden.

Nach Ansicht des Teams könnte das menschliche Feedback theoretisch auch durch ein Belohnungsmodell wie im Fall von ChatGPT ersetzt werden, aber "dies könnte kostspielige menschliche Arbeitskraft erfordern und ist von Natur aus begrenzt".

ILLUME reduziert benötigte Trainingsdaten deutlich

Der Prozess verbessert die Leistung des Modells ausschließlich auf der Grundlage der vom Modell generierten Stichproben, die durch menschliches Feedback ausgewählt werden. Dabei werde das Modell interaktiv an menschliche Präferenzen angepasst und Rationalisierungsfähigkeiten herausgearbeitet. Eine empirische Evaluation zeige, dass ILLUME latente Fähigkeiten des Sprachmodells aufdeckt und verstärkt - und so insgesamt bessere Begründungen liefert.

Eine Frage zu einem Bild, eine menschliche Begründung und verschiedene von KI-Modellen generierte Erklärungen. ILLUME liefert eine Antwort, die menschlichen Begründungen am nächsten kommt. | Bild: Brack, Schramowski et al.

Ein großer Vorteil der Methode: Das Team konnte zeigen, dass ein mit ILLUME trainiertes MAGMA-VLM mit deutlich weniger Finetuning-Daten an die Leistung von Modellen herankommt, die mit bis zu fünfmal mehr Daten trainiert wurden.

Empfehlung

KI-Forschung

Studie zeigt: "Test-Time Compute Scaling" ist der Weg zu besseren KI-Systemen

Trotz aller Erfolge ist die Methode jedoch nicht in der Lage, den zugrunde liegenden Sprachmodellen Fähigkeiten zu entlocken, die sie nicht schon vorher besaßen. "Heutige LMs scheinen nicht in der Lage zu sein, aus wenigen Trainingsbeispielen logische Schlüsse zu ziehen. Daher ist es für VLMs, die von LMs abgeleitet sind, schwierig, logisches Denken ohne größere Erweiterungen von diesen zu übernehmen. Stattdessen argumentieren wir, dass der Ansatz, logisches Denken als reine Textgenerierungsaufgabe zu trainieren und zu evaluieren, inhärent fehlerhaft sein könnte".

Alle Informationen und Code zu ILLUME gibt es auf GitHub

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

ILLUME: Können KI-Modelle lernen, warum eine Giraffe eine Giraffe ist?

ILLUME soll VLMs "rationalisieren"

ILLUME reduziert benötigte Trainingsdaten deutlich

Studie zeigt: "Test-Time Compute Scaling" ist der Weg zu besseren KI-Systemen

Microsofts MAI-DxO sorgt für präzisere KI-Diagnosen und spart fast 70 Prozent der Kosten

Forschende haben womöglich eine Leiter für die "Datenmauer" gefunden

OmniGen 2 vereint Bild und Text wie GPT-4o, ist aber Open Source

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

ILLUME: Können KI-Modelle lernen, warum eine Giraffe eine Giraffe ist?

ILLUME soll VLMs "rationalisieren"

ILLUME reduziert benötigte Trainingsdaten deutlich

Artikel teilen

Bankverbindung