Inhalt
summary Zusammenfassung

Wenn KI und Mensch zusammenarbeiten, entstehen detailliertere und akkuratere Bildbeschreibungen. Die Methode könnte nicht nur Google, sondern die Branche im Ganzen nach vorne bringen. 

Anzeige

Ein Forschungsteam von Google hat mit ImageInWords (IIW) ein System entwickelt, das Bildbeschreibungen auf ein neues Level heben soll. IIW kombiniert präzise Anleitungen für menschliche Mitarbeiter:innen mit einem schrittweisen Beschreibungsprozess. Das Ergebnis sind extrem detaillierte Bildbeschreibungen, die bisherige Ansätze in Benchmarks übertreffen.

Aktuelle KI-Systeme zur Bildverarbeitung werden oft mit riesigen Datenmengen trainiert, die aus dem Internet stammen. Diese Daten sind jedoch häufig ungenau und verwenden simple Alt-Texte anstelle von aussagekräftigen Bildbeschreibungen. Das schränkt die Fähigkeiten dieser Systeme ein.

Bild: Google

Bisherige Versuche, hochwertigere Bildbeschreibungen zu erstellen, hatten ebenfalls Schwächen - egal ob die Beschreibungen von Menschen oder KI-Modellen erstellt wurden, weil sie etwa subjektive Verzerrungen oder Halluzinationen vorwiesen.

Anzeige
Anzeige

IIW geht diese Herausforderungen direkt an. Zunächst erkennt das System einzelne Objekte in einem Bild. Dann erstellt eine KI erste Beschreibungen für jedes Objekt. Diese dienen als Ausgangspunkt für menschliche Beschreiber:innen.

Bild: Google

Menschen sollen Bild "wie einem Maler" beschreiben

Die menschlichen Beschreiber:innen verfeinern und erweitern die objektbezogenen Beschreibungen und sollen darauf achten, dass die Beschreibungen gleichzeitig umfassend und akkurat sind.

Die Kommentatoren werden gebeten, sich so zu verhalten, als ob sie einen Maler anweisen würden, mit ihren Worten zu malen, und nur die Details aufzunehmen, die sich aus den visuellen Anhaltspunkten ableiten lassen, wobei eine größere Genauigkeit anzustreben ist. Um flüssige und kohärente Beschreibungen zu verfassen, sollten unnötige Fragmentierungen von Sätzen vermieden werden; die Kommentatoren sollten die Verwendung von Füllwörtern wie "in diesem Bild", "wir können sehen", "es gibt ein" und "dies ist ein Bild von" vermeiden, da sie wortreich sind und keine visuellen Details hinzufügen.

Aus dem Paper

Der vollständige Leitfaden für die Beschreibungen findet sich im Anhang des Papers unter Kapitel 7.1 und umfasst mehrere Seiten. Unter anderem sollen die Mitarbeitenden auf diese Eigenschaften eines Bildes achten:

  • Funktion: Zweck der Komponente oder die Rolle, die sie im Bild spielt
  • Form: Spezifische geometrische Form, organisch oder abstrakt
  • Größe: Groß, klein oder relative Größe zu anderen Objekten
  • Farbe: Spezifische Farbe mit Nuancen wie einfarbig oder bunt
  • Design/Muster: Einfarbig, Blumen oder geometrisch
  • Textur: Glatt, rau, bucklig, glänzend oder matt
  • Material: Holz, Metall, Glas oder Kunststoff
  • Zustand: Gut, schlecht, alt, neu, beschädigt oder abgenutzt
  • Opazität: Transparent, transluzent oder opak
  • Ausrichtung: Aufrecht, horizontal, umgekehrt oder geneigt
  • Ort: Vordergrund, Mittelgrund oder Hintergrund
  • Beziehung zu anderen Komponenten: Interaktionen oder relative räumliche Anordnung
  • Auf Objekten geschriebener Text: Wo und wie er geschrieben ist, Schriftart und ihre Eigenschaften, einzeilig/mehrzeilig oder mehrere einzelne Textstücke

Anschließend erstellt ein Vision Language Model eine Beschreibung für das gesamte Bild. Die Annotator:innen nutzen diese zusammen mit den objektbezogenen Beschreibungen, um eine vollständige und stimmige Bildbeschreibung zu erstellen.

Die ersten KI-generierten Beschreibungen in IIW geben den menschlichen Beschreiber:innen einen Ausgangspunkt und beschleunigen den Prozess. IIW nutzt zudem einen schrittweisen Ansatz, bei dem die Annotator:innen auf vorherigen Beschreibungen aufbauen. Das führe zu hochwertigeren Ergebnissen in kürzerer Zeit.

Empfehlung
Bild: Google

Googles Methode schlägt andere in Tests sehr oft

Bei Tests mit nachgelagerten Aufgaben aus Prompts die Eingabebilder zu rekonstruieren, schnitt IIW unabhängig von der Beschreibungslänge in menschlichen Bewertungen am besten ab. IIW-Beschreibungen glänzten auch bei Aufgaben, die ein tieferes Verständnis der Bildinhalte erfordern. Sie enthielten die notwendigen Details, um echte von falschen Bildinformationen zu unterscheiden.

Bild: Google

Google plant, IIW weiter zu verbessern, auf andere Sprachen auszuweiten und den Anteil menschlicher Arbeit zu reduzieren. IIW habe das Potenzial, verschiedenste KI-Anwendungen zu beeinflussen, von der Bildersuche über visuelle Frage-Antwort-Systeme bis hin zur Erstellung synthetischer Daten und damit der kontinuierlichen Verbesserung von Text-zu-Bild-Modellen.

Während aktuelle Technologien wie Midjourney v6, SDXL oder Firefly 3 schon Bilder in verblüffend hoher Qualität produzieren können, ist das sogenannte Prompt-Following, also wie genau das Modell die Texteingabe umsetzt, noch ein Bereich mit Optimierungspotenzial. IIW scheint ein wichtiger Baustein zu sein, von dem nicht nur Googles Software wie Imagen, sondern auch die anderer Unternehmen profitieren könnte.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google entwickelt mit ImageInWords (IIW) ein System für extrem detaillierte Bildbeschreibungen, das objektbezogene KI-Beschreibungen mit menschlichen Verfeinerungen kombiniert und bisherige Ansätze in Benchmarks übertrifft.
  • Menschliche Beschreiber:innen verfeinern die KI-generierten objektbezogenen Beschreibungen anhand eines umfangreichen Leitfadens, der auf Eigenschaften wie Funktion, Form, Größe, Farbe, Muster, Textur und Beziehungen zwischen Objekten achtet.
  • In Tests mit nachgelagerten Aufgaben schnitten IIW-Beschreibungen am besten ab, auch bei Aufgaben, die ein tieferes Bildverständnis erfordern. Google sieht Potenzial für vielfältige Anwendungen und plant, IIW weiterzuentwickeln und den Anteil menschlicher Arbeit zu reduzieren.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!