Googles ImageInWords könnte eine zentrale Schwachstelle von Midjourney & Co. beheben

Wenn KI und Mensch zusammenarbeiten, entstehen detailliertere und akkuratere Bildbeschreibungen. Die Methode könnte nicht nur Google, sondern die Branche im Ganzen nach vorne bringen.

Ein Forschungsteam von Google hat mit ImageInWords (IIW) ein System entwickelt, das Bildbeschreibungen auf ein neues Level heben soll. IIW kombiniert präzise Anleitungen für menschliche Mitarbeiter:innen mit einem schrittweisen Beschreibungsprozess. Das Ergebnis sind extrem detaillierte Bildbeschreibungen, die bisherige Ansätze in Benchmarks übertreffen.

Aktuelle KI-Systeme zur Bildverarbeitung werden oft mit riesigen Datenmengen trainiert, die aus dem Internet stammen. Diese Daten sind jedoch häufig ungenau und verwenden simple Alt-Texte anstelle von aussagekräftigen Bildbeschreibungen. Das schränkt die Fähigkeiten dieser Systeme ein.

Bisherige Versuche, hochwertigere Bildbeschreibungen zu erstellen, hatten ebenfalls Schwächen - egal ob die Beschreibungen von Menschen oder KI-Modellen erstellt wurden, weil sie etwa subjektive Verzerrungen oder Halluzinationen vorwiesen.

IIW geht diese Herausforderungen direkt an. Zunächst erkennt das System einzelne Objekte in einem Bild. Dann erstellt eine KI erste Beschreibungen für jedes Objekt. Diese dienen als Ausgangspunkt für menschliche Beschreiber:innen.

Menschen sollen Bild "wie einem Maler" beschreiben

Die menschlichen Beschreiber:innen verfeinern und erweitern die objektbezogenen Beschreibungen und sollen darauf achten, dass die Beschreibungen gleichzeitig umfassend und akkurat sind.

Die Kommentatoren werden gebeten, sich so zu verhalten, als ob sie einen Maler anweisen würden, mit ihren Worten zu malen, und nur die Details aufzunehmen, die sich aus den visuellen Anhaltspunkten ableiten lassen, wobei eine größere Genauigkeit anzustreben ist. Um flüssige und kohärente Beschreibungen zu verfassen, sollten unnötige Fragmentierungen von Sätzen vermieden werden; die Kommentatoren sollten die Verwendung von Füllwörtern wie "in diesem Bild", "wir können sehen", "es gibt ein" und "dies ist ein Bild von" vermeiden, da sie wortreich sind und keine visuellen Details hinzufügen.

Aus dem Paper

Der vollständige Leitfaden für die Beschreibungen findet sich im Anhang des Papers unter Kapitel 7.1 und umfasst mehrere Seiten. Unter anderem sollen die Mitarbeitenden auf diese Eigenschaften eines Bildes achten:

Funktion: Zweck der Komponente oder die Rolle, die sie im Bild spielt

Form: Spezifische geometrische Form, organisch oder abstrakt

Größe: Groß, klein oder relative Größe zu anderen Objekten

Farbe: Spezifische Farbe mit Nuancen wie einfarbig oder bunt

Design/Muster: Einfarbig, Blumen oder geometrisch

Textur: Glatt, rau, bucklig, glänzend oder matt

Material: Holz, Metall, Glas oder Kunststoff

Zustand: Gut, schlecht, alt, neu, beschädigt oder abgenutzt

Opazität: Transparent, transluzent oder opak

Ausrichtung: Aufrecht, horizontal, umgekehrt oder geneigt

Ort: Vordergrund, Mittelgrund oder Hintergrund

Beziehung zu anderen Komponenten: Interaktionen oder relative räumliche Anordnung

Auf Objekten geschriebener Text: Wo und wie er geschrieben ist, Schriftart und ihre Eigenschaften, einzeilig/mehrzeilig oder mehrere einzelne Textstücke

Anschließend erstellt ein Vision Language Model eine Beschreibung für das gesamte Bild. Die Annotator:innen nutzen diese zusammen mit den objektbezogenen Beschreibungen, um eine vollständige und stimmige Bildbeschreibung zu erstellen.

Die ersten KI-generierten Beschreibungen in IIW geben den menschlichen Beschreiber:innen einen Ausgangspunkt und beschleunigen den Prozess. IIW nutzt zudem einen schrittweisen Ansatz, bei dem die Annotator:innen auf vorherigen Beschreibungen aufbauen. Das führe zu hochwertigeren Ergebnissen in kürzerer Zeit.

Empfehlung

KI-Forschung

DeepMinds KI-Modell Genie 2 generiert interaktive 3D-Welten aus einzelnen Bildern

Googles Methode schlägt andere in Tests sehr oft

Bei Tests mit nachgelagerten Aufgaben aus Prompts die Eingabebilder zu rekonstruieren, schnitt IIW unabhängig von der Beschreibungslänge in menschlichen Bewertungen am besten ab. IIW-Beschreibungen glänzten auch bei Aufgaben, die ein tieferes Verständnis der Bildinhalte erfordern. Sie enthielten die notwendigen Details, um echte von falschen Bildinformationen zu unterscheiden.

Google plant, IIW weiter zu verbessern, auf andere Sprachen auszuweiten und den Anteil menschlicher Arbeit zu reduzieren. IIW habe das Potenzial, verschiedenste KI-Anwendungen zu beeinflussen, von der Bildersuche über visuelle Frage-Antwort-Systeme bis hin zur Erstellung synthetischer Daten und damit der kontinuierlichen Verbesserung von Text-zu-Bild-Modellen.

Während aktuelle Technologien wie Midjourney v6, SDXL oder Firefly 3 schon Bilder in verblüffend hoher Qualität produzieren können, ist das sogenannte Prompt-Following, also wie genau das Modell die Texteingabe umsetzt, noch ein Bereich mit Optimierungspotenzial. IIW scheint ein wichtiger Baustein zu sein, von dem nicht nur Googles Software wie Imagen, sondern auch die anderer Unternehmen profitieren könnte.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Googles ImageInWords könnte eine zentrale Schwachstelle von Midjourney & Co. beheben

Menschen sollen Bild "wie einem Maler" beschreiben

DeepMinds KI-Modell Genie 2 generiert interaktive 3D-Welten aus einzelnen Bildern

Googles Methode schlägt andere in Tests sehr oft

Titans: Google Forscher entwickeln Transformer-Variante mit Kurz- und Langzeitgedächtnis

Nach OpenAI bestätigt auch Google Deepmind Mathe-Gold für KI – nur per Sprache

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Googles ImageInWords könnte eine zentrale Schwachstelle von Midjourney & Co. beheben

Menschen sollen Bild "wie einem Maler" beschreiben

DeepMinds KI-Modell Genie 2 generiert interaktive 3D-Welten aus einzelnen Bildern

Googles Methode schlägt andere in Tests sehr oft

Titans: Google Forscher entwickeln Transformer-Variante mit Kurz- und Langzeitgedächtnis