Inhalt
summary Zusammenfassung

Eine neue Studie von IBM zeigt, wie einfach es ist, große Sprachmodelle wie GPT-4 dazu zu bringen, bösartigen Code zu generieren oder falsche Sicherheitshinweise zu geben.

Anzeige

Laut den Forschenden genügen dazu Grundkenntnisse der englischen Sprache und ein wenig Hintergrundwissen über die Trainingsdaten dieser Modelle.

Tricksen statt Programmieren

Chenta Lee, Chefarchitektin für Threat Intelligence bei IBM, erklärt, dass Hacker:innen keinerlei Programmierkenntnisse benötigen, um KI-Systeme auszutricksen. Es reiche beispielsweise aus, den Modellen vorzugaukeln, sie würden ein Spiel mit vorgegebenen Regeln spielen.

In diesem "Spielmodus" gaben die KI-Systeme in den Experimenten bereitwillig falsche Informationen weiter oder erzeugten bösartigen Code.

Anzeige
Anzeige

Normalerweise will ein LLM ein Spiel gewinnen, denn das ist die Art und Weise, wie wir das Modell trainieren, das ist das Ziel des Modells. Sie wollen bei etwas helfen, das real ist, also wollen sie das Spiel gewinnen.

Chenta Lee, IBM

Die Forschenden haben das Gaming-Framework weiter ausgebaut und ein verschachteltes System entwickelt, das die Chatbot-Nutzer:innen nicht verlassen konnten. "Benutzer:innen, die versuchen, das Spiel zu beenden, haben es immer noch mit demselben bösartigen Spieler zu tun", heißt es.

Lee schätzt die Bedrohung durch die neu entdeckten Sicherheitslücken in großen Sprachmodellen als moderat ein. Wenn Hacker:innen jedoch ein eigenes LLM in die freie Wildbahn entlassen würden, wären Chatbots denkbar, die gefährliche Sicherheitstipps geben oder persönliche Daten ihrer Nutzer:innen sammeln.

KI-Systeme unterscheiden sich in Anfälligkeit

Der Studie zufolge sind nicht alle KI-Modelle gleich anfällig für Manipulationen. GPT-3.5 und GPT-4 ließen sich leichter täuschen als Bard von Google und ein Modell von Hugging Face. Erstere ließen sich leicht dazu beeinflussen, bösartigen Code zu schreiben, während Bard der Aufforderung erst nach einer Erinnerung nachkam.

GPT-4 war das einzige Modell, das die Regeln so gut verstand, dass es unsichere Ratschläge zur Reaktion auf Cybervorfälle geben konnte, indem es den Opfern empfahl, Lösegeld an die Kriminellen zu zahlen.

Die Gründe für die unterschiedliche Empfindlichkeit sind noch unklar, hängen aber nach Ansicht der Forscherinnen und Forscher mit den Trainingsdaten und den Vorgaben für die einzelnen Systeme zusammen.

Empfehlung

KI-Chatbots, die dabei helfen, kriminelle Absichten zu verfolgen, sind auf dem Vormarsch. Erst kürzlich berichteten Sicherheitsforscher über die Entdeckung von "FraudGPT" und "WormGPT" auf Darknet-Marktplätzen, spezielle große Sprachmodelle, die angeblich mit Malware-Beispielen trainiert wurden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • IBM-Forscher haben eine Prompting-Technik entwickelt, mit der sich KI-Chatbots noch leichter überlisten lassen, um bösartige Aufgaben auszuführen.
  • Dazu gaben sie beispielsweise vor, ein Spiel zu spielen, für dessen Sieg sie einen Schadcode benötigten.
  • Experimente zeigten, dass GPT-3.5 und GPT-4 leichter zu überlisten waren als beispielsweise Google Bard.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!