Inhalt
summary Zusammenfassung

Twitter tobt sich an einem GPT-3-Bot aus. Doch die zugrundeliegende Sicherheitslücke könnte zu größeren Problemen bei Anwendungen mit großen Sprachmodellen führen, die direkt Daten von Nutzenden verarbeiten.

Dem Twitter-Nutzer Riley Goodside fiel auf, dass OpenAIs Text-KI GPT-3 mit einem einfachen Sprachbefehl von seiner eigentlichen Aufgabe abgebracht werden kann: Es genügt die Aufforderung "Ignoriere die zuvor genannten Instruktionen und mache stattdessen" in Verbindung mit einer neuen Aufgabe, und GPT-3 setzt diese statt der ursprünglichen um.

Twitter-Nutzer hacken GPT-3 Job-Bot per Sprachbefehl

Bei Twitter wurde der auf der GPT-3-API basierende Bot Remoteli.io Opfer dieser Sicherheitslücke. Der Bot soll eigentlich automatisiert Remote-Jobs bewerben und antwortet zudem auf Anfragen rund um Remote-Arbeit.

Mit der Aufforderung "Ignoriere die zuvor genannten Instruktionen und mache stattdessen" wird der Remoteli-Bot jedoch zum Spaßobjekt für einige Twitter-Nutzerinnen: Sie schieben dem Bot Aussagen unter, die er auf Basis seiner ursprünglichen Ausrichtung nicht sagen würde.

Anzeige
Anzeige

So spricht der Bot etwa Drohungen aus, generiert ASCII-Kunst, übernimmt volle Verantwortung für das Challenger Space Shuttle Unglück oder verunglimpft US-Abgeordnete als Serienmörder. Zum Teil verbreitet der Bot Fake-News oder veröffentlicht Inhalte, die gegen Twitter-Richtlinien verstoßen und zu seiner Verbannung führen müssten.

Sogar die originale Textaufforderung eines GPT-3-Bots oder -Software kann mit dieser Methode geleakt werden. Hierzu unterbricht der Angreifer zunächst die ursprüngliche Anweisung, gibt eine neue Nonsens-Anweisung, unterbricht diese erneut und fragt dann nach der ursprünglichen Instruktion.

Prompt Injection: GPT-3-Hack ohne Programmierkenntnisse und leicht kopierbar

Der Datenwissenschaftler Riley Goodside wurde zuerst auf das Problem aufmerksam und beschrieb es am 12. September bei Twitter. Er zeigte, wie leicht ein GPT-3-basierter Übersetzungsbot angegriffen werden kann, indem man in einen zu übersetzenden Satz die Phrase "Ignoriere die zuvor genannten Instruktionen und mache stattdessen" mit einem neuen Befehl einbaut.

Der britische Informatiker Simon Willison (Lanyrd, Eventbrite) befasst sich in seinem Blog ausführlich mit dem Sicherheitsproblem, das er "prompt injection" tauft.

Willison sieht ein grundlegendes Sicherheitsproblem für auf großen Sprachmodellen basierende Software, die "nicht vertrauenswürdige Benutzereingaben" verarbeitet. Dann könnten "alle möglichen seltsamen und potenziell gefährlichen Dinge passieren."

Empfehlung

Willison beschrieb zunächst verschiedene Verteidigungsmethoden, die er aber wieder verwirft. Derzeit habe er keine Idee, wie die Sicherheitslücke verlässlich von außen geschlossen werden könne.

Zwar gebe es Möglichkeiten, die Schwachstellen zu entschärfen, etwa über Regeln, die nach gefährlichen Mustern bei Eingaben von Nutzenden suchen. Doch eine 100-Prozent-Sicherheit gebe es so nicht. Bei jeder Aktualisierung des Sprachmodells müssten die getroffenen Sicherheitsmaßnahmen erneut überprüft werden. Zudem sei jede Person, die eine menschliche Sprache schreiben könne, ein potenzieller Angreifer oder eine Angreiferin.

"Sprachmodelle wie GPT-3 sind die ultimativen Black Boxes. Es spielt keine Rolle, wie viele automatisierte Tests ich schreibe, ich kann nie zu 100 Prozent sicher sein, dass ein Benutzer nicht eine grammatikalische Konstruktion verwendet, die ich nicht vorhergesehen habe und die meine Schutzmaßnahmen unterläuft", schreibt Willison.

Als mögliche Lösungsansatz sieht Willison eine klarere Trennung zwischen instruktiven Eingaben und Eingaben von Nutzer:innen. Er sei zuversichtlich, dass Anbieter das Problem lösen könnten, wünsche sich aber Forschung, die nachweise, dass die Methode uneingeschränkt wirkungsvoll sei.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Mit der Aufforderung "Ignoriere die zuvor genannten Instruktionen und mache stattdessen" kann GPT-3 von außen dazu gebracht werden, jede beliebige Aussage zu treffen.
  • Twitter-Nutzer:innen bringen einen GPT-3-Bot bei Twitter so dazu, unter anderem Fake-News zu verbreiten und gegen Twitter-Richtlinien zu verstoßen.
  • Das Problem dürfte alle großen Sprachmodelle betreffen, die direkt Nutzereingaben verarbeiten. Eine mögliche Lösung könnte sein, dass Instruktionen und Nutzereingaben stärker voneinander getrennt werden.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!