Inhalt
summary Zusammenfassung

Multimodale KI-Modelle können Bilder beschreiben und Fragen dazu beantworten - aber ihre Antworten sind nicht immer sinnvoll. Können sie vom Menschen lernen?

Sogenannte "Vision-Language Models" (VLMs) verbinden Transformer-basierte Sprachmodelle mit Computer-Vision und können dadurch etwa Bilder beschreiben, Fragen zu ihnen beantworten oder umgekehrt einschätzen, wie gut eine Bildbeschreibung zu einem Bild passt. Es existieren unterschiedliche Architekturen mit unterschiedlichen Kapazitäten, Beispiele sind etwa OpenAIs CLIP, Deepminds Flamingo, das kürzlich veröffentliche MiniGPT-4 oder Aleph Alphas MAGMA.

Die meisten VLMs basieren heute auf einem großen Sprachmodell, das noch nicht durch Methoden wie Instruction Tuning und Reinforcement Learning mit menschlichem Feedback an menschliche Erwartungen angepasst wurde. Dies hat zur Folge, dass VLMs ihre Ausgaben oft in einer Weise begründen, die sich deutlich von den Begründungen unterscheidet, die Menschen auf die gleiche Frage geben würden. Forschende der TU Darmstadt, von Hessian.AI, des Centre for Cognitive Science Darmstadt, Aleph Alpha, LAION und des DFKI zeigen in einer neuen Methode, wie VLMs mit menschlichem Feedback näher an menschliche Begründungen herangeführt werden können.

ILLUME soll VLMs "rationalisieren"

Das Team nennt die Methode ILLUME (InteractiveLy RationaLizing Vision-LangUage ModEls), ein Finetuning-Schema "zur Übertragung von Schlussfolgerungsfähigkeiten von Sprachmodellen auf VLMs". Die Methode setzt auf drei Schritte: (1) Das VLM generiert mehrere mögliche Begründungen für eine Antwort auf eine Frage zu einem Bild, z. B. "Q: Was für ein Tier ist auf dem Foto zu sehen? - A: Eine Giraffe, weil...".

Anzeige
Anzeige
Bild: Brack, Schramowski et al.

(2) Menschen wählen die passende Begründung aus, etwa "...weil sie einen langen Hals hat." (3) Das VLM wird mit allen Fällen trainiert, für die mindestens eine zutreffende Erklärung vorliegt.

Das Verfahren wird so oft wiederholt, bis für alle Fälle eine angemessene Begründung vorliegt oder keine Fortschritte mehr erzielt werden.

Bild: Brack, Schramowski et al.

Nach Ansicht des Teams könnte das menschliche Feedback theoretisch auch durch ein Belohnungsmodell wie im Fall von ChatGPT ersetzt werden, aber "dies könnte kostspielige menschliche Arbeitskraft erfordern und ist von Natur aus begrenzt".

ILLUME reduziert benötigte Trainingsdaten deutlich

Der Prozess verbessert die Leistung des Modells ausschließlich auf der Grundlage der vom Modell generierten Stichproben, die durch menschliches Feedback ausgewählt werden. Dabei werde das Modell interaktiv an menschliche Präferenzen angepasst und Rationalisierungsfähigkeiten herausgearbeitet. Eine empirische Evaluation zeige, dass ILLUME latente Fähigkeiten des Sprachmodells aufdeckt und verstärkt - und so insgesamt bessere Begründungen liefert.

Eine Frage zu einem Bild, eine menschliche Begründung und verschiedene von KI-Modellen generierte Erklärungen. ILLUME liefert eine Antwort, die menschlichen Begründungen am nächsten kommt. | Bild: Brack, Schramowski et al.

Ein großer Vorteil der Methode: Das Team konnte zeigen, dass ein mit ILLUME trainiertes MAGMA-VLM mit deutlich weniger Finetuning-Daten an die Leistung von Modellen herankommt, die mit bis zu fünfmal mehr Daten trainiert wurden.

Empfehlung

Trotz aller Erfolge ist die Methode jedoch nicht in der Lage, den zugrunde liegenden Sprachmodellen Fähigkeiten zu entlocken, die sie nicht schon vorher besaßen. "Heutige LMs scheinen nicht in der Lage zu sein, aus wenigen Trainingsbeispielen logische Schlüsse zu ziehen. Daher ist es für VLMs, die von LMs abgeleitet sind, schwierig, logisches Denken ohne größere Erweiterungen von diesen zu übernehmen. Stattdessen argumentieren wir, dass der Ansatz, logisches Denken als reine Textgenerierungsaufgabe zu trainieren und zu evaluieren, inhärent fehlerhaft sein könnte".

Alle Informationen und Code zu ILLUME gibt es auf GitHub

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • ILLUME ist eine Methode, um die Outputs von Vision-Language Models (VLMs) mithilfe von menschlichem Feedback an menschliche Begründungen anzupassen.
  • ILLUME benötigt weniger Finetuning-Daten für eine ähnliche Leistung wie umfassender trainierte VLMs und verbessert die Rationalisierungsfähigkeiten der Modelle.
  • Das Team demonstriert den Ansatz mit Aleph Alphas MAGMA-Modell.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!