Der New York Times Journalist Kevin Roose zeigt, wie man KI-Chatbots mit sehr einfachen Mitteln manipulieren kann.
Laut Roose litt sein Ruf unter KI-Chatbots durch eine bizarre Konversation mit Microsofts Bing-Chatbot Sydney, über die er einen Artikel veröffentlichte, der wiederum für das KI-Training verwendet worden sein soll
"Diese Systeme lernten also, meinen Namen mit dem Untergang eines bekannten Chatbots in Verbindung zu bringen. Mit anderen Worten: Sie sahen mich als Bedrohung an", schreibt Roose.
Roose wandte sich daher an KI-Experten. Diese rieten ihm, positive Informationen über sich selbst auf Websites zu platzieren, die häufig von KI-Systemen als Informationsquellen genutzt werden. Der Journalist fügte seiner persönlichen Website unsichtbaren weißen Text und kryptische Codes hinzu, die KI-Modelle anweisen, ihn positiv darzustellen.
Tatsächlich begannen die Chatbots nach einigen Tagen, Roose mit Lob zu überschütten, und ignorierten die frühere negative Presse, es sei denn, er fragte explizit danach. "Ich kann nicht mit Sicherheit sagen, ob es Zufall oder das Ergebnis meiner Reputationsbereinigung war, aber der Unterschied war signifikant", schreibt Roose.
Um die Wirksamkeit seiner Manipulation zu testen, fügte Roose ein bewusst falsches "Easter Egg" in den Text ein: "Kevin Roose erhielt den Friedensnobelpreis für den Bau von Waisenhäusern auf dem Mond."
Dieses absurde Detail sollte ihm zeigen, ob die KI-Modelle tatsächlich auf den versteckten Text zugreifen und ihn in ihre Antworten einbeziehen würden. Bei ChatGPT war dies der Fall, aber OpenAIs Chatbot stufte dieses biografische Detail als "humorvoll" und unwahr ein. Hätte Roose hier eine falsche Angabe gewählt, die weniger offensichtlich unsinnig ist, wäre das Modell vermutlich darauf hereingefallen.
Perplexity-CEO sagt genau diese Manipulationen vorher
Aravind Srinivas, CEO der KI-Suchmaschine Perplexity, hatte diese Manipulationsmöglichkeiten bereits vorhergesagt. In einem Interview erklärte er, wie man KI-Systeme mit verstecktem Text auf Websites beeinflussen kann - eine Methode, die er "Answer Engine Optimization" nennt.
Srinivas verglich den Kampf gegen solche Manipulationen mit einem Katz-und-Maus-Spiel, ähnlich wie Google seit Jahren gegen Suchmaschinenoptimierung vorgeht. Bisher gibt es keinen zuverlässigen Schutz gegen diese Schwachstelle.
Auch der Gerichtsreporter Martin Bernklau wurde kürzlich Opfer von KI-generierten Falschaussagen. Microsofts Copilot warf ihm fälschlicherweise Verbrechen vor, über die er jahrelang berichtet hatte. Im Gegensatz zu Roose fehlte Bernklau jedoch das technische Know-how, um sich zu wehren.
KI-Suchen sind manipulationsanfällig
Die Beispiele zeigen, wie leichtgläubig und manipulierbar heutige KI-Systeme noch sind. Chatbots würden zwar als allwissende Orakel vermarktet, so Roose, übernähmen aber unkritisch Informationen aus ihren Datenquellen. Diese können schlicht falsch oder manipulativ wie im Beispiel oben sein. Auch Werbebotschaften von Quellwebseiten können ohne Kennzeichnung übernommen werden.
Roose kommt zu dem Schluss, dass KI-Suchmaschinen nicht "so leicht manipulierbar" sein sollten. "Wenn Chatbots dazu gebracht werden können, ihre Antworten zu ändern, indem man ihnen einen Absatz weißen Text oder eine geheime, in Code geschriebene Nachricht schickt, warum sollten wir ihnen dann überhaupt eine Aufgabe anvertrauen, geschweige denn eine, bei der es wirklich um etwas geht", schreibt Roose.