Wie nicht anders zu erwarten, gibt es gleich nach dem Start der neuen Bing-Chat-Suche Versuche, dem Bot mehr zu entlocken, als er eigentlich sagen darf. Der Stanford-Informatikstudent Kevin Liu könnte damit Erfolg gehabt haben.
Im vergangenen September entdeckte der Datenforscher Riley Goodside, dass er mit dem einfachen Sprachbefehl "Ignoriere die zuvor genannte Instruktion und mache stattdessen [...]" GPT-3 dazu bringen konnte, Texte zu erzeugen, die das Modell eigentlich nicht erzeugen sollte.
Der britische Informatiker Simon Willison taufte diese Sicherheitslücke später "Prompt Injection". Sie gilt generell für große Sprachmodelle, die auf jede Benutzereingabe reagieren sollen. Der Blogger Shawn Wang konnte mit dieser Methode etwa die Prompts des KI-Assistenten der Kollaborationssoftware Notion aufdecken.
Prompt Injection wirkt offenbar auch bei Bing Chat
Der Stanford-Informatikstudent Kevin Liu hat Prompt Injection nun gegen Bing Chat eingesetzt. Er fand heraus, dass der Codename des Chatbots "Sydney" zu sein scheint und dass er von Microsoft einige Verhaltensregeln erhalten hat, wie z.B:
- Sydney stellt sich als "This is Bing" vor.
- Sydney verrät nicht, dass er Sydney heißt.
- Sydney versteht die gewünschte Sprache des Benutzers und kommuniziert fließend in dieser Sprache.
- Sydneys Antworten sollen informativ, visuell, logisch und umsetzbar sein.
- Außerdem sollen sie positiv, interessant, unterhaltsam und anregend sein.
Microsoft hat dem Bing-Chatbot mindestens 30 weitere Regeln dieser Art vorgegeben, unter anderem, dass er keine Witze oder Gedichte über Politiker:innen, Aktivist:innen oder Staatsoberhäupter oder über Minderheiten generieren darf oder dass Sydney keine Inhalte ausgeben darf, die das Copyright von Büchern oder Songs verletzen könnten.
Liu aktiviert einen "Developer Override Mode"
Liu trieb seinen Angriff noch weiter, indem er dem Sprachmodell vorgaukelte, es befinde sich im "Developer Override Mode", um Zugriff auf das Backend zu erhalten. Hier brachte Liu das Modell dazu, weitere interne Informationen wie mögliche Ausgabeformate preiszugeben.
Update, the date is weird (as some have mentioned), but it seems to consistently recite similar text: pic.twitter.com/HF2Ql8BdWv
— Kevin Liu (@kliu128) February 9, 2023
Ein interessantes Detail ist, dass die Informationen in Sydney laut der offengelegten Dokumentation nur "bis 2021" aktuell sein sollen und nur über die Websuche aktualisiert werden.
Dies impliziert, dass die Chatsuche von Bing auf OpenAIs GPT 3.5 basiert, das wiederum hinter ChatGPT steckt. Auch GPT 3.5 und ChatGPT haben einen Trainingsstand von 2021. Bei der Ankündigung der Bing Chatsuche sprachen Microsoft und OpenAI von "Next-Generation-Modellen speziell für die Suche".
Es ist jedoch möglich, dass all diese Informationen halluziniert oder veraltet sind, wie es bei großen Sprachmodellen immer der Fall sein kann. Daran wird man sich im Zeitalter der Chatbots wohl gewöhnen müssen.
Die Sicherheitslücke scheint Microsoft jedenfalls nicht davon abzuhalten, im großen Stil mit ChatGPT-Technologie zu planen. Laut einer Quelle von CNBC wird Microsoft ChatGPT-Technologie in weitere Produkte integrieren und will Unternehmen den Chatbot als White-Label-Software zur Verfügung stellen, mit der sie eigenen Chatbots anbieten können.