Bild-KI DALL-E 2 entwickelt ein verborgenes Vokabular

2. Juni 2022

Daras et al. | OpenAI DALL-E 2

OpenAIs Bild-KI DALL-E 2 generiert glaubwürdige Fotos und Zeichnungen, aber schreiben kann sie nicht - oder doch? Eine Untersuchung zeigt, dass von DALL-E 2 auf Bildern generierte Wörter kein zufälliger Buchstabensalat sind, sondern eine Bedeutung haben können.

Im April veröffentlichte das KI-Unternehmen OpenAI erste Details zu DALL-E 2, einem KI-System, das beeindruckende Bilder generiert. Die Ergebnisse lagen weit über dem, was Künstliche Intelligenz bis dahin leisten konnte.

Wie schon beim Sprachmodell GPT-3 startete DALL-E 2 in einer geschlossenen Beta-Phase. Mittlerweile generierten zugelassene Nutzer:innen über drei Millionen Bilder mit DALL-E 2. Pro Woche sollen nun weiter etwa 1.000 neue Zugänge freigeschaltet werden.

DALL-E 2 hat Probleme mit Text

OpenAIs Bild-System erzeugt teilweise fotorealistische Szenen, etwa von Fake-Urlaubsbildern, Teddy-Bären im Picasso-Stil oder einer antiken Statue eines Mannes, der über eine Katze stolpert. Der Kreativität scheinen kaum Grenzen gesetzt.

Doch DALL-E 2 hat auch Schwächen, etwa wenn das System farbige Würfel auf einem Bild entgegen der Anweisung falsch anordnet, Konzepte wie Supermarkt und Renaissance vermischt oder "operated" als "operiert" und nicht "bedient" versteht.

Didn't do the captions - it's not great at text #dalle pic.twitter.com/4YvxdAqZPZ
Anzeige

— Benjamin Hilton (@benjamin_hilton) April 28, 2022

Überdies hat DALL-E 2 Probleme, Text auf ein Bild zu bringen. Etwas, das Googles neue Bild-KI Imagen OpenAIs Produkt voraus hat. Ein Beispiel aus OpenAIs zugehöriger Forschungsarbeit: Statt in einem generierten Bild "Deep Learning" auf ein Schild zu schreiben, textet die KI "Deinp Lerpt" oder "Diep Deep".

Auf dem Schild soll Deep Learning stehen. DALL-E 2 schreibt stattdessen scheinbar sinnlose Fantasiewörter. | Bild: OpenAI

Auch in zahlreichen anderen Versuchen produzierte DALL-E 2 lediglich Fantasiewörter. Die Ursache liegt wohl im von OpenAI verwendetem statischen multimodalen CLIP-Modell, das Teil der DALL-E-2-Architektur ist. Googles Imagen setzt dagegen auf ein großes Sprachmodell mit einem besseren Verständnis für Sprache.

Hat DALL-E 2 ein verborgenes Vokabular?

Nun zeigen Forscher der University of Texas, dass die seltsamen Zeichenfolgen von DALL-E 2 wohl doch nicht so zufällig sind, wie bisher angenommen. In zahlreichen Experimenten konnten sie zeigen, dass DALL-E 2 ein verstecktes Vokabular entwickelt hat, das in Bildern mit Text auftaucht. Diese vermeintlichen Fantasiewörter wiederum können für die Steuerung des KI-Systems eingesetzt werden.

So generiere etwa die Eingabe "Two farmers talking about vegetables, with subtitles" ein Bild mit scheinbar nichtssagendem Text.

A known limitation of DALLE-2 is that it struggles with text. For example, the prompt: "Two farmers talking about vegetables, with subtitles" gives an image that appears to have gibberish text on it.

However, the text is not as random as it initially appears... (2/n) pic.twitter.com/B3e5qVsTKu

— Giannis Daras (@giannis_daras) May 31, 2022

Doch wenn der Text "Vicootes" als Eingabe für DALL-E 2 genutzt wird, generiert das System Bilder von Gemüse. Der Text "Apoploe vesrreaitars" erzeugt dagegen Bilder von Vögeln.

"Es scheint, dass die Landwirte von Vögeln sprechen, die sich an ihrem Gemüse zu schaffen machen", so Mit-Autor Giannis Daras auf Twitter.

"Vicootes" erzeugt Gemüse-Bilder, "Apoploe vesrreaitais" solche von Vögeln. | Bild: Daras et al. | OpenAI DALL-E 2

Mit der gleichen Methode finden die Forscher weitere Beispiele des DALL-E-spezifischen Vokabulars: “Wa ch zod ahaakes rea" erzeugt Bilder von Meeresfrüchten, "Apoploe vesrreaitais" je nach Stil nicht nur von Vögeln, sondern auch Insekten - der Begriff scheint also fliegende Objekte zu umfassen.

"Contarra ccetnxniams luryca tanniounons" meint - meistens - Insekten. Zusammengenommen erzeugt so die Eingabe “Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons” Bilder von Vögeln, die Insekten fressen.

Vögel, die Insekten fressen. Von DALL-E 2 generierte Bilder. — “Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons” | Bild: Daras et al. | OpenAI DALL-E 2

Es sei jedoch schwer, solche robusten Beispiele zu finden, schreiben die Autoren. In vielen Fällen erzeuge das gleiche Wort zahlreiche unterschiedliche Bilder, ohne auf den ersten Blick zu erkennende Gemeinsamkeiten.

Dennoch schaffe die Entdeckung eines DALL-E-Vokabulars neue und interessante Herausforderungen bezüglich Sicherheit und Interpretierbarkeit des Modells. Aktuell filtern Sprach-Systeme die Texteingaben für DALL-E 2 und erkennen solche, die gegen OpenAIs Richtlinien verstoßen. Die scheinbar unsinnigen Eingaben mit DALL-E-Vokabular könnten genutzt werden, um diese Filter zu umgehen, so die Autoren.

Die Forscher wollen im nächsten Schritt mehr über das verborgene Vokabular von DALL-E 2 herausfinden.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Bild-KI DALL-E 2 entwickelt ein verborgenes Vokabular

DALL-E 2 hat Probleme mit Text

Hat DALL-E 2 ein verborgenes Vokabular?

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.