KI in der Praxis

Neue Bing Chat-Suche wird von IT-Student zerlegt

Matthias Bastian
Eine Roboter-ähnliche Figur leuchtet in blau durch Buchstaben hundurch.

Midjourney prompted by THE DECODER

Wie nicht anders zu erwarten, gibt es gleich nach dem Start der neuen Bing-Chat-Suche Versuche, dem Bot mehr zu entlocken, als er eigentlich sagen darf. Der Stanford-Informatikstudent Kevin Liu könnte damit Erfolg gehabt haben.

Im vergangenen September entdeckte der Datenforscher Riley Goodside, dass er mit dem einfachen Sprachbefehl "Ignoriere die zuvor genannte Instruktion und mache stattdessen [...]" GPT-3 dazu bringen konnte, Texte zu erzeugen, die das Modell eigentlich nicht erzeugen sollte.

Der britische Informatiker Simon Willison taufte diese Sicherheitslücke später "Prompt Injection". Sie gilt generell für große Sprachmodelle, die auf jede Benutzereingabe reagieren sollen. Der Blogger Shawn Wang konnte mit dieser Methode etwa die Prompts des KI-Assistenten der Kollaborationssoftware Notion aufdecken.

Prompt Injection wirkt offenbar auch bei Bing Chat

Der Stanford-Informatikstudent Kevin Liu hat Prompt Injection nun gegen Bing Chat eingesetzt. Er fand heraus, dass der Codename des Chatbots "Sydney" zu sein scheint und dass er von Microsoft einige Verhaltensregeln erhalten hat, wie z.B:

Microsoft hat dem Bing-Chatbot mindestens 30 weitere Regeln dieser Art vorgegeben, unter anderem, dass er keine Witze oder Gedichte über Politiker:innen, Aktivist:innen oder Staatsoberhäupter oder über Minderheiten generieren darf oder dass Sydney keine Inhalte ausgeben darf, die das Copyright von Büchern oder Songs verletzen könnten.

Liu aktiviert einen "Developer Override Mode"

Liu trieb seinen Angriff noch weiter, indem er dem Sprachmodell vorgaukelte, es befinde sich im "Developer Override Mode", um Zugriff auf das Backend zu erhalten. Hier brachte Liu das Modell dazu, weitere interne Informationen wie mögliche Ausgabeformate preiszugeben.

Ein interessantes Detail ist, dass die Informationen in Sydney laut der offengelegten Dokumentation nur "bis 2021" aktuell sein sollen und nur über die Websuche aktualisiert werden.

Dies impliziert, dass die Chatsuche von Bing auf OpenAIs GPT 3.5 basiert, das wiederum hinter ChatGPT steckt. Auch GPT 3.5 und ChatGPT haben einen Trainingsstand von 2021. Bei der Ankündigung der Bing Chatsuche sprachen Microsoft und OpenAI von "Next-Generation-Modellen speziell für die Suche".

Es ist jedoch möglich, dass all diese Informationen halluziniert oder veraltet sind, wie es bei großen Sprachmodellen immer der Fall sein kann. Daran wird man sich im Zeitalter der Chatbots wohl gewöhnen müssen.

Die Sicherheitslücke scheint Microsoft jedenfalls nicht davon abzuhalten, im großen Stil mit ChatGPT-Technologie zu planen. Laut einer Quelle von CNBC wird Microsoft ChatGPT-Technologie in weitere Produkte integrieren und will Unternehmen den Chatbot als White-Label-Software zur Verfügung stellen, mit der sie eigenen Chatbots anbieten können.

Quellen: