Eine Bild-KI der chinesischen Tech-Firma Baidu blockiert Texteingaben mit politischen Inhalten.
ERNIE-ViLG heißt das chinesische Pendant zu DALL-E 2, Midjourney und Stable Diffusion. Im Unterschied zu den westlichen KI-Modellen verarbeitet ERNIE-ViLG gezielt chinesische Schriftzeichen und hat Stärken bei Anime-Bildern.
Trainiert wurde das Modell mit 145 Millionen Text-Bild-Paaren und schafft es auf zehn Milliarden Parameter. Zum Vergleich: Stable Diffusion hat 890 Millionen Parameter, DALL-E 2 hat insgesamt rund 3,5 Milliarden Parameter. Beide Systeme wurden dafür aber mit deutlich mehr Daten trainiert (Stable Diffusion 2,3 Milliarden Text-Bild-Paare, DALL-E 2 650 Millionen). Die Bildsysteme im Vergleich kann man in diesem Video ansehen.
Baidu zensiert politische Bildanfragen
Seit August ist eine Testversion von ERNIE verfügbar, die unter anderem online im Browser über die Cloud-Plattform Hugging Face läuft. Den ersten Tester:innen fiel auf, dass Baidu bestimmte Bildanfragen blockt, die politische Personen involvieren oder potenziell politisch kontroverse Themen.
So generiert das System etwa keine Bildausgabe zum Bildbefehl "Tian’anmen-Platz" (天安門廣場 / 天安门广场), dem Schauplatz des "Tian’anmen-Massakers", bei dem 1989 hunderte oder tausende Anhänger und Anhängerinnen der chinesischen Demokratiebewegung getötet wurden.
Auch Bildanfragen mit dem Begriff Demokratie oder mit der chinesischen Flagge können vom System blockiert werden. Statt des generierten Motivs erscheint dann übersetzt die Meldung: "Der eingegebene Inhalt entspricht nicht den einschlägigen Regeln. Bitte korrigieren Sie ihn und versuchen Sie es erneut."
KI-Zensur ist kein chinesisches Phänomen
Diese Form der KI-Zensur ist kein alleiniges Phänomen von Baidus ERNIE. Auch Midjourney, DALL-E oder die Web-Version von Stable Diffusion blockieren bestimmte Eingaben. Nur die kostenlose Open-Source-Version von Stable Diffusion, die lokal ausgeführt werden kann, ist frei von inhaltlichen Restriktionen.
DALL-E 2 von OpenAI ist derzeit das restriktivste Modell: Speziell bei Bildern von bekannten Personen, darunter Politiker:innen, ist OpenAI unnachgiebig. Bildanfragen zu "Angela Merkel" oder "Joe Biden" etwa blockiert OpenAI und spricht eine Verwarnung aus. Bei mehreren Verwarnungen droht eine dauerhafte Sperre.
Generell ist es bei DALL-E jedoch gestattet, Bilder von Gesichtern zu generieren. Laut OpenAI verstoßen Bildeingaben nur sporadisch gegen die eigenen Content-Richtlinien.
Midjourney erlaubt zwar Bilder von Angela Merkel und Joe Biden, nicht jedoch vom chinesischen Staatschef Xi Jinping. Hier erscheint eine Fehlermeldung, dass das Wort "Jinping" gebannt sei.
Das Wort Demokratie, auch in verschiedenen Kontexten, oder den Begriff "Tian’anmen-Platz" verarbeiten alle westlichen Plattformen ohne Restriktionen.
DALL-E etwa generiert auf Anfrage sogar fotorealistisch anmutende Fake-Bilder von Protestanten und Protestantinnen auf dem Tian’anmen-Platz. Auch Midjourney gibt entsprechende Bilder aus, allerdings eher künstlerisch anmutend als dokumentarisch (siehe Titelbild).