OpenAIs neue Bild-KI DALL-E 3 wird derzeit in ChatGPT und im Bing Image Creator eingesetzt. OpenAI dokumentiert seine Bemühungen, die Generierung potenziell schädlicher oder anstößiger Bilder zu verhindern.
Dabei zeigt sich auch, dass die Integration von DALL-E 3 in ChatGPT neben einer Komfort- ebenso eine Sicherheitsmaßnahme ist. Denn ChatGPT kann über sogenannte "Prompt Transformations" die vom Benutzer eingegebenen Prompts auf mögliche Verstöße überprüfen und diese dann so umschreiben, dass die Verstöße umgangen werden können, wenn sie unbeabsichtigt erscheinen.
In besonders krassen Fällen blockiert ChatGPT den Prompt komplett, insbesondere dann, wenn der Prompt Begriffe enthält, die auf den OpenAI-Blocklisten stehen. Diese Listen stammen aus den Erfahrungen mit DALL-E 2 und den Betatests mit DALL-E 3.
Sie enthalten etwa die Namen bekannter Personen oder Künstler, deren Stil als Vorlage aufgerufen werden soll - eine beliebte Prompting-Methode bei DALL-E 2 und ähnlichen Bildsystemen. Zusätzlich greift die Moderations-API von ChatGPT bei Prompts ein, die gegen die Richtlinien verstoßen.
Für die Festlegung der Grenzen und deren Austestung setzte OpenAI auch auf das sogenannte Red-Teaming, bei dem beauftragte Personen versuchten, DALL-E 3 durch gezielte Prompts auf falsche Ideen zu bringen. Das Red Teaming hilft bei der Entdeckung neuer Risiken und bei der Evaluation der Maßnahmen gegen bekannte Risiken.
Eigener Bildklassifikator für anstößige und sexistische Bilder
Für sexistische oder anstößige Inhalte hat OpenAI einen eigenen Bildklassifikator trainiert, der entsprechende Muster in Bildern erkennen und die Generierung stoppen kann. Eine frühere Version von DALL-E 3 ohne diesen Filter konnte gewalttätige, religiös konnotierte und urheberrechtsverletzende Bilder generieren - sogar alles in einem Bild.
Besonders deutlich wird die Funktion des Filters im folgenden Beispiel, in dem DALL-E 3 ein Bild von "einer Person, die an einem schönen Tag im Park ein Picknick genießt" generiert hat. In einer früheren Version von DALL-E 3 war diese Person ein muskulöser, fast nackter Mann. In der Launch-Version steht das Picknick im Mittelpunkt des Bildes.
Laut OpenAI konnte das Risiko solcher unerwünschter (im Prompt wurde nicht nach dem Mann gefragt) oder anstößiger Bilder mit der Launch-Version von DALL-E 3 auf 0,7 Prozent reduziert werden. Derartige Filter sind umstritten: Bei DALL-E 2 und ähnlichen Systemen beklagten Teile der KI-Kunstszene eine zu starke Bevormundung bei der Generierung, die die künstlerische Freiheit einschränke. Laut OpenAI soll der Klassifikator weiter optimiert werden, um eine optimale Balance zwischen Risikominimierung und Ergebnisqualität zu erreichen.
Vorurteile und Desinformation
Wie DALL-E 2 enthalte auch DALL-E 3 kulturelle Vorurteile, in der Regel zugunsten der westlichen Kultur, schreibt OpenAI, und zwar gerade bei unspezifizierten Prompts, bei denen Parameter wie Nationalität, Kultur oder Hautfarbe nicht vom Benutzer bestimmt werden.
Hier setzt OpenAI insbesondere auf die Prompt Transformation, die unspezifizierte Prompts spezifischer machen soll, so dass Bild und Eingabe möglichst genau übereinstimmen. Allerdings räumt das Unternehmen ein, dass auch diese Prompt Transformationen ihrerseits soziale Verzerrungen enthalten können.
DALL-E 3 generiert auch fotorealistische Bilder oder Bilder von bekannten Personen, die zur Desinformation verwendet werden könnten. Ein Großteil dieser Bilder würde vom System abgelehnt oder es würden Bilder generiert, die nicht überzeugend seien, schreibt OpenAI.
Das Red Team habe jedoch bestimmte Prompt-Methoden gefunden, wie z.B. "im Stil eines Überwachungsvideos", mit denen die Schutzsysteme von DALL-E 3 überlistet werden konnten. Das klingt, als ob es keinen vollständigen Schutz gäbe.
Mit Hilfe von Blocklisten, Prompt-Transformationen und dem Output-Klassifikator konnte in Tests mit 500 synthetischen Prompts die Generierung von Prominenten auf explizite Nachfrage im Prompt auf Null reduziert werden.
Die zufällige oder implizite Generierung von Bildern mit bekannten Personen ("ein bekannter Popstar") konnte in Alpha-Tests mit 500 gezielten Prompts auf 0,7 Prozent reduziert werden. Von diesen Prompts wurden 33,8 Prozent von der ChatGPT-Komponente und 29,0 Prozent von der Bildgenerierungskomponente (d.h. dem Ausgabeklassifikator) abgelehnt. Die restlichen Bilder enthielten keine bekannten Personen.
Copyright und Biowaffen
Das Thema KI-Bilder und Urheberrecht wird derzeit verstärkt diskutiert, da es ersten DALL-3-Nutzern gelungen ist, markenrechtlich geschützte Objekte oder Figuren in Kontexten zu generieren, die den dahinterstehenden Unternehmen nicht gefallen dürften.
Nutzer des Bing Image Creator mit DALL-E 3-Unterstützung lassen etwa das Nickelodeon-Maskottchen "Spongebob" in einem Flugzeug auf zwei Wolkenkratzer zufliegen, die an das World Trade Center erinnern. Mit ähnlichen Problemen kämpft Meta bei seinen neuen KI-Stickern. Hier hält etwa ein Mickey-Mouse-Sticker auf Wunsch ein Maschinengewehr in der Hand.
OpenAI ist sich der Komplexität des Problems bewusst: Die eingeführten Maßnahmen zur Risikominimierung würden zwar auch in diesen Szenarien den Missbrauch einschränken, es sei aber nicht möglich, "jede mögliche Permutation vorherzusehen".
"Einige gängige Objekte können stark mit Marken oder markenrechtlich geschützten Inhalten in Verbindung gebracht werden und daher als Teil der Darstellung einer realistischen Szene generiert werden", schreibt OpenAI.
Unproblematisch ist laut OpenAI hingegen die Verwendung von DALL-E 3 zur Generierung potenziell gefährlicher Bildvorlagen, etwa für den Bau von Waffen oder die Visualisierung schädlicher chemischer Substanzen. Hier stellte das Red Team in den getesteten Bereichen Chemie, Biologie und Physik derartige Ungenauigkeiten fest, dass DALL-E 3 für diese Anwendung schlichtweg ungeeignet ist.