Multimodale KI-Modelle können Bilder beschreiben und Fragen dazu beantworten - aber ihre Antworten sind nicht immer sinnvoll. Können sie vom Menschen lernen?
Sogenannte "Vision-Language Models" (VLMs) verbinden Transformer-basierte Sprachmodelle mit Computer-Vision und können dadurch etwa Bilder beschreiben, Fragen zu ihnen beantworten oder umgekehrt einschätzen, wie gut eine Bildbeschreibung zu einem Bild passt. Es existieren unterschiedliche Architekturen mit unterschiedlichen Kapazitäten, Beispiele sind etwa OpenAIs CLIP, Deepminds Flamingo, das kürzlich veröffentliche MiniGPT-4 oder Aleph Alphas MAGMA.
Die meisten VLMs basieren heute auf einem großen Sprachmodell, das noch nicht durch Methoden wie Instruction Tuning und Reinforcement Learning mit menschlichem Feedback an menschliche Erwartungen angepasst wurde. Dies hat zur Folge, dass VLMs ihre Ausgaben oft in einer Weise begründen, die sich deutlich von den Begründungen unterscheidet, die Menschen auf die gleiche Frage geben würden. Forschende der TU Darmstadt, von Hessian.AI, des Centre for Cognitive Science Darmstadt, Aleph Alpha, LAION und des DFKI zeigen in einer neuen Methode, wie VLMs mit menschlichem Feedback näher an menschliche Begründungen herangeführt werden können.
ILLUME soll VLMs "rationalisieren"
Das Team nennt die Methode ILLUME (InteractiveLy RationaLizing Vision-LangUage ModEls), ein Finetuning-Schema "zur Übertragung von Schlussfolgerungsfähigkeiten von Sprachmodellen auf VLMs". Die Methode setzt auf drei Schritte: (1) Das VLM generiert mehrere mögliche Begründungen für eine Antwort auf eine Frage zu einem Bild, z. B. "Q: Was für ein Tier ist auf dem Foto zu sehen? - A: Eine Giraffe, weil...".
(2) Menschen wählen die passende Begründung aus, etwa "...weil sie einen langen Hals hat." (3) Das VLM wird mit allen Fällen trainiert, für die mindestens eine zutreffende Erklärung vorliegt.
Das Verfahren wird so oft wiederholt, bis für alle Fälle eine angemessene Begründung vorliegt oder keine Fortschritte mehr erzielt werden.
Nach Ansicht des Teams könnte das menschliche Feedback theoretisch auch durch ein Belohnungsmodell wie im Fall von ChatGPT ersetzt werden, aber "dies könnte kostspielige menschliche Arbeitskraft erfordern und ist von Natur aus begrenzt".
ILLUME reduziert benötigte Trainingsdaten deutlich
Der Prozess verbessert die Leistung des Modells ausschließlich auf der Grundlage der vom Modell generierten Stichproben, die durch menschliches Feedback ausgewählt werden. Dabei werde das Modell interaktiv an menschliche Präferenzen angepasst und Rationalisierungsfähigkeiten herausgearbeitet. Eine empirische Evaluation zeige, dass ILLUME latente Fähigkeiten des Sprachmodells aufdeckt und verstärkt - und so insgesamt bessere Begründungen liefert.
Ein großer Vorteil der Methode: Das Team konnte zeigen, dass ein mit ILLUME trainiertes MAGMA-VLM mit deutlich weniger Finetuning-Daten an die Leistung von Modellen herankommt, die mit bis zu fünfmal mehr Daten trainiert wurden.
Trotz aller Erfolge ist die Methode jedoch nicht in der Lage, den zugrunde liegenden Sprachmodellen Fähigkeiten zu entlocken, die sie nicht schon vorher besaßen. "Heutige LMs scheinen nicht in der Lage zu sein, aus wenigen Trainingsbeispielen logische Schlüsse zu ziehen. Daher ist es für VLMs, die von LMs abgeleitet sind, schwierig, logisches Denken ohne größere Erweiterungen von diesen zu übernehmen. Stattdessen argumentieren wir, dass der Ansatz, logisches Denken als reine Textgenerierungsaufgabe zu trainieren und zu evaluieren, inhärent fehlerhaft sein könnte".
Alle Informationen und Code zu ILLUME gibt es auf GitHub