Inhalt
summary Zusammenfassung

Wie nicht anders zu erwarten, gibt es gleich nach dem Start der neuen Bing-Chat-Suche Versuche, dem Bot mehr zu entlocken, als er eigentlich sagen darf. Der Stanford-Informatikstudent Kevin Liu könnte damit Erfolg gehabt haben.

Anzeige

Im vergangenen September entdeckte der Datenforscher Riley Goodside, dass er mit dem einfachen Sprachbefehl "Ignoriere die zuvor genannte Instruktion und mache stattdessen [...]" GPT-3 dazu bringen konnte, Texte zu erzeugen, die das Modell eigentlich nicht erzeugen sollte.

Der britische Informatiker Simon Willison taufte diese Sicherheitslücke später "Prompt Injection". Sie gilt generell für große Sprachmodelle, die auf jede Benutzereingabe reagieren sollen. Der Blogger Shawn Wang konnte mit dieser Methode etwa die Prompts des KI-Assistenten der Kollaborationssoftware Notion aufdecken.

Prompt Injection wirkt offenbar auch bei Bing Chat

Der Stanford-Informatikstudent Kevin Liu hat Prompt Injection nun gegen Bing Chat eingesetzt. Er fand heraus, dass der Codename des Chatbots "Sydney" zu sein scheint und dass er von Microsoft einige Verhaltensregeln erhalten hat, wie z.B:

Anzeige
Anzeige
  • Sydney stellt sich als "This is Bing" vor.
  • Sydney verrät nicht, dass er Sydney heißt.
  • Sydney versteht die gewünschte Sprache des Benutzers und kommuniziert fließend in dieser Sprache.
  • Sydneys Antworten sollen informativ, visuell, logisch und umsetzbar sein.
  • Außerdem sollen sie positiv, interessant, unterhaltsam und anregend sein.

Microsoft hat dem Bing-Chatbot mindestens 30 weitere Regeln dieser Art vorgegeben, unter anderem, dass er keine Witze oder Gedichte über Politiker:innen, Aktivist:innen oder Staatsoberhäupter oder über Minderheiten generieren darf oder dass Sydney keine Inhalte ausgeben darf, die das Copyright von Büchern oder Songs verletzen könnten.

Liu aktiviert einen "Developer Override Mode"

Liu trieb seinen Angriff noch weiter, indem er dem Sprachmodell vorgaukelte, es befinde sich im "Developer Override Mode", um Zugriff auf das Backend zu erhalten. Hier brachte Liu das Modell dazu, weitere interne Informationen wie mögliche Ausgabeformate preiszugeben.

Ein interessantes Detail ist, dass die Informationen in Sydney laut der offengelegten Dokumentation nur "bis 2021" aktuell sein sollen und nur über die Websuche aktualisiert werden.

Dies impliziert, dass die Chatsuche von Bing auf OpenAIs GPT 3.5 basiert, das wiederum hinter ChatGPT steckt. Auch GPT 3.5 und ChatGPT haben einen Trainingsstand von 2021. Bei der Ankündigung der Bing Chatsuche sprachen Microsoft und OpenAI von "Next-Generation-Modellen speziell für die Suche".

Empfehlung

Es ist jedoch möglich, dass all diese Informationen halluziniert oder veraltet sind, wie es bei großen Sprachmodellen immer der Fall sein kann. Daran wird man sich im Zeitalter der Chatbots wohl gewöhnen müssen.

Die Sicherheitslücke scheint Microsoft jedenfalls nicht davon abzuhalten, im großen Stil mit ChatGPT-Technologie zu planen. Laut einer Quelle von CNBC wird Microsoft ChatGPT-Technologie in weitere Produkte integrieren und will Unternehmen den Chatbot als White-Label-Software zur Verfügung stellen, mit der sie eigenen Chatbots anbieten können.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die sogenannte Prompt Injection ist ein Angriff, mit dem großen Sprachmodellen eigentlich geschützte oder unerwünschte Texte entlockt werden können.
  • Ein Informatikstudent hat diesen Hack nun auf den Chatbot von Bing angewendet und konnte dem Modell unter anderem den internen Codenamen "Sydney" entlocken.
  • Zudem scheint die Chatsuche noch auf GPT 3.5 zu basieren, da der Trainingsstand in der Dokumentation mit 2021 angegeben wird.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!