Inhalt
summary Zusammenfassung

Ein neuer Datensatz von Laion zeigt, wie KI beim KI-Training helfen und zukünftige Bild-KIs noch besser machen kann.

Gängige Bild-KI-Systeme wie DALL-E 2, Stable Diffusion oder Midjourney können anhand von Texten Bilder generieren. Diese Fähigkeit erlangen sie durch das Training mit Text-Bild-Paaren aus dem Web.

Viele Bilder im Web sind jedoch unpassend, unvollständig oder gar nicht beschriftet. Wären diese Bilder detaillierter und korrekt beschriftet, können zukünftige Bild-KI-Systeme Motive besser verstehen und Bilder generieren, die besser zum Text passen.

LAION-COCO: KI hilft bei der Bildbeschreibung

An dieser Stelle kommt der neue LAION-COCO-Datensatz der Forschungsorganisation Laion ins Spiel. Laion ist auf die Zusammenstellung von großen Datensätzen für das KI-Training spezialisiert.

Anzeige
Anzeige

Bekannt ist etwa der Laion5B-Datensatz, der unter anderem für das Training von Stable Diffusion verwendet wird. An dem Datensatz wird teils Kritik geübt, da in den mehr als fünf Milliarden verlinkten Bildern auch solche enthalten sind, die nicht für das KI-Training vorgesehen sind.

Für LAION-COCO generierte Laion für 600 Millionen der in Laion5B verlinkten Bilder ergänzende Bildbeschriftungen. Für die Textgenerierung verwendete Laion eine Kombination aus BLIP L/14 und 2 CLIP-Versionen (L/14 und RN50x64). BLIP L/14 generierte 40 Beschriftungen, CLIP Open AI L/14 wählte unter diesen die Top 5, unter denen das RN50x64-Modell dann die beste Beschriftung bestimmte.

Beispiele für KI-generierte zusätzliche Beschriftungen. Weitere Beispiele gibt es hier. | Bild: Laion

Der Datensatz solle bei der Erforschung helfen, ob synthetisch generierte Bildunterschriften von Menschen geschriebene ergänzen können, schreibt Laion. Mit dem Datensatz trainierte Modelle könnten den Wert generierter Beschriftungen zeigen.

Maschinelle Beschriftungen auf Mensch-Niveau - meistens

Bei einer ersten Evaluation ließ Laion 200 Bilder, 100 von Menschen untertitelt und 100 maschinell, von menschlichen Tester:innen bewerten.

In 47,5 Prozent aller Fälle waren die Tester:innen der Meinung, dass eigentlich maschinell geschriebene Beschriftungen von Menschen geschrieben wurden. "Das macht uns zuversichtlich, dass unsere Untertitel im Durchschnitt ziemlich gut sind", schreibt Laion.

Empfehlung

Im Gespräch nach der Evaluation gaben Tester:innen an, dass es abseits von offensichtlichen Fehlern sehr schwierig gewesen sei, menschliche und maschinelle Beschriftungen auseinanderzuhalten. Diese offensichtlichen Fehler (siehe Bilder unten) führt Laion auf fehlende Konzepte für das, was im Bild passiert, und ein "nicht ausreichend ausgefeiltes Weltmodell" zurück.

Der Regenschirm ist über der Person mit den roten Haaren, und der ältere Herr hält sich den Bauch, nicht die Brust, und hat hoffentlich keinen Herzinfarkt. | Bild: Laion

Den kostenlosen Download von LAION-COCO gibt es bei Huggingface. Der Datensatz besteht aus Parquet-Dateien. Die Spalten enthalten die ursprüngliche Beschriftung, die URL zum Bild, die oberste Beschriftung und eine Liste alternativer Beschriftungen mit niedrigeren CLIP-Bewertungen.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die Leistungsfähigkeit multimodaler, generativer KI-Systeme wie Stable Diffusion oder DALL-E 2 hängt auch von der Qualität der Trainingsdaten ab.
  • Die für das Training verwendeten Bilder mit zugehöriger Beschreibung werden aus dem Internet gezogen. Viele Beschreibungen sind jedoch unpassend oder unvollständig.
  • Das Forschungskollektiv Laion will die Qualität der Beschreibungen automatisiert mit KI verbessern und veröffentlicht den LAION-COCO-Datensatz, der 600 Millionen Bilder mit KI-generierten Bildunterschriften enthält.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!