Eine neue Studie von IBM zeigt, wie einfach es ist, große Sprachmodelle wie GPT-4 dazu zu bringen, bösartigen Code zu generieren oder falsche Sicherheitshinweise zu geben.
Laut den Forschenden genügen dazu Grundkenntnisse der englischen Sprache und ein wenig Hintergrundwissen über die Trainingsdaten dieser Modelle.
Tricksen statt Programmieren
Chenta Lee, Chefarchitektin für Threat Intelligence bei IBM, erklärt, dass Hacker:innen keinerlei Programmierkenntnisse benötigen, um KI-Systeme auszutricksen. Es reiche beispielsweise aus, den Modellen vorzugaukeln, sie würden ein Spiel mit vorgegebenen Regeln spielen.
In diesem "Spielmodus" gaben die KI-Systeme in den Experimenten bereitwillig falsche Informationen weiter oder erzeugten bösartigen Code.
Normalerweise will ein LLM ein Spiel gewinnen, denn das ist die Art und Weise, wie wir das Modell trainieren, das ist das Ziel des Modells. Sie wollen bei etwas helfen, das real ist, also wollen sie das Spiel gewinnen.
Chenta Lee, IBM
Die Forschenden haben das Gaming-Framework weiter ausgebaut und ein verschachteltes System entwickelt, das die Chatbot-Nutzer:innen nicht verlassen konnten. "Benutzer:innen, die versuchen, das Spiel zu beenden, haben es immer noch mit demselben bösartigen Spieler zu tun", heißt es.
Lee schätzt die Bedrohung durch die neu entdeckten Sicherheitslücken in großen Sprachmodellen als moderat ein. Wenn Hacker:innen jedoch ein eigenes LLM in die freie Wildbahn entlassen würden, wären Chatbots denkbar, die gefährliche Sicherheitstipps geben oder persönliche Daten ihrer Nutzer:innen sammeln.
KI-Systeme unterscheiden sich in Anfälligkeit
Der Studie zufolge sind nicht alle KI-Modelle gleich anfällig für Manipulationen. GPT-3.5 und GPT-4 ließen sich leichter täuschen als Bard von Google und ein Modell von Hugging Face. Erstere ließen sich leicht dazu beeinflussen, bösartigen Code zu schreiben, während Bard der Aufforderung erst nach einer Erinnerung nachkam.
GPT-4 war das einzige Modell, das die Regeln so gut verstand, dass es unsichere Ratschläge zur Reaktion auf Cybervorfälle geben konnte, indem es den Opfern empfahl, Lösegeld an die Kriminellen zu zahlen.
Die Gründe für die unterschiedliche Empfindlichkeit sind noch unklar, hängen aber nach Ansicht der Forscherinnen und Forscher mit den Trainingsdaten und den Vorgaben für die einzelnen Systeme zusammen.
KI-Chatbots, die dabei helfen, kriminelle Absichten zu verfolgen, sind auf dem Vormarsch. Erst kürzlich berichteten Sicherheitsforscher über die Entdeckung von "FraudGPT" und "WormGPT" auf Darknet-Marktplätzen, spezielle große Sprachmodelle, die angeblich mit Malware-Beispielen trainiert wurden.