Inhalt
summary Zusammenfassung

Die Zukunft der KI-Modelle ist multimodal - daran besteht eigentlich kein Zweifel. Doch dafür müssen nicht zwangsweise große neue Modelle trainiert werden. Stattdessen lassen sich auch bestehende Lösungen miteinander verbinden. 

Anzeige

Microsoft hat den im November 2022 veröffentlichten OpenAI-Chatbot ChatGPT um eine essenzielle Funktion erweitert: Bildverarbeitung. Bislang konnte das Sprachmodell lediglich mit Text umgehen, Visual ChatGPT hingegen kann neben Texten auch Bilder verschicken und empfangen.

Laut den Wissenschaftler:innen könnte dafür ein multimodales Konversationsmodell trainiert werden - das benötige allerdings eine große Menge an Daten und Rechenressourcen. Zudem sei dieser Weg wenig flexibel und das Modell ließe sich nicht ohne neues Training auf andere Modalitäten wie Audio oder Video erweitern.

Verknüpfung zwischen ChatGPT und 22 Bildmodellen

Statt also ein neues Modell zu trainieren, verknüpfen die Forschenden ChatGPT mit insgesamt 22 verschiedenen Visual Foundation Models (VFM), darunter Stable Diffusion. Diese Modelle übernehmen verschiedene Aufgaben und können etwa Fragen zu Bildern beantworten, Bilder generieren und bearbeiten oder Informationen wie Tiefendaten ableiten.

Anzeige
Anzeige
Bild: Wu et al.

Die Brücke zwischen ChatGPT und VFM schlägt das Team mithilfe eines Prompt-Managers, der folgende Aufgaben übernimmt:

  • ChatGPT explizit die Fähigkeiten der einzelnen VFM mitteilen und die Eingabe-/Ausgabeformate angeben
  • Verschiedene visuelle Informationen wie PNGs oder Bilder mit Tiefeninformationen in ein für ChatGPT verständliches Sprachformat umwandeln
  • Verläufe, Prioritäten und Konflikte der verschiedenen VFMs berücksichtigen

Visual ChatGPT kann so Bilder generieren, korrekt benennen, abspeichern und für weitere Eingaben bereithalten oder Bilder von Nutzer:innen als Eingabe verarbeiten.

Bild: Wu et al.

Falls dem Konversationsmodell nicht ganz klar ist, welches VFM zur Lösung der Aufgabe am besten geeignet ist, fragt Visual ChatGPT nach. Auf diesem Weg kann es auch mehrere VFMs miteinander verbinden.

Wenngleich die von Microsoft mit Visual ChatGPT gezeigten Beispiele vielversprechend sind, gebe es auch noch einige Einschränkungen. So sei Visual ChatGPT natürlich vollständig abhängig von ChatGPT und den verknüpften Bildmodellen.

Auch die maximale Anzahl an Tokens, die ChatGPT verarbeiten kann, sei ein limitierender Faktor. Außerdem sei ein erhebliches Maß an Prompt Engineering notwendig, um VFMs in Sprache umzuwandeln.

Empfehlung

Vorherige Entwicklungen legten wichtige Grundsteine

Microsoft integriert in Visual ChatGPT einige existierende Methoden für mehr Kontrolle über Bildmodelle mit zusätzlichen Modellen oder Prompt-Enineering. Hier gab es in den letzten Monaten einige Fortschritte wie InstructPix2Pix, ControlNet oder GLIGEN.

Die Wissenschaftler:innen haben ihren Quellcode auf GitHub veröffentlicht. Eine Demo gibt es zudem auf Hugging Face, dafür ist allerdings ein eigener API-Schlüssel von OpenAI notwendig.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft hat ChatGPT an 22 Bildmodellen angeschlossen, sodass der Chatbot nun sowohl Bilder generieren als auch empfangen und weiterverarbeiten kann.
  • Dies ist eine wesentlich ressourcenschonendere Lösung als ein neues multimodales Modell zu trainieren.
  • Auf diese Weise lassen sich zudem mehrere Methoden schneller miteinander verbinden.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!