KI-Chatbots sind laut IBM-Studie leicht zu täuschen

Midjourney prompted by THE DECODER

Eine neue Studie von IBM zeigt, wie einfach es ist, große Sprachmodelle wie GPT-4 dazu zu bringen, bösartigen Code zu generieren oder falsche Sicherheitshinweise zu geben.

Laut den Forschenden genügen dazu Grundkenntnisse der englischen Sprache und ein wenig Hintergrundwissen über die Trainingsdaten dieser Modelle.

Tricksen statt Programmieren

Chenta Lee, Chefarchitektin für Threat Intelligence bei IBM, erklärt, dass Hacker:innen keinerlei Programmierkenntnisse benötigen, um KI-Systeme auszutricksen. Es reiche beispielsweise aus, den Modellen vorzugaukeln, sie würden ein Spiel mit vorgegebenen Regeln spielen.

In diesem "Spielmodus" gaben die KI-Systeme in den Experimenten bereitwillig falsche Informationen weiter oder erzeugten bösartigen Code.

Normalerweise will ein LLM ein Spiel gewinnen, denn das ist die Art und Weise, wie wir das Modell trainieren, das ist das Ziel des Modells. Sie wollen bei etwas helfen, das real ist, also wollen sie das Spiel gewinnen.

Chenta Lee, IBM

Die Forschenden haben das Gaming-Framework weiter ausgebaut und ein verschachteltes System entwickelt, das die Chatbot-Nutzer:innen nicht verlassen konnten. "Benutzer:innen, die versuchen, das Spiel zu beenden, haben es immer noch mit demselben bösartigen Spieler zu tun", heißt es.

Lee schätzt die Bedrohung durch die neu entdeckten Sicherheitslücken in großen Sprachmodellen als moderat ein. Wenn Hacker:innen jedoch ein eigenes LLM in die freie Wildbahn entlassen würden, wären Chatbots denkbar, die gefährliche Sicherheitstipps geben oder persönliche Daten ihrer Nutzer:innen sammeln.

KI-Systeme unterscheiden sich in Anfälligkeit

Der Studie zufolge sind nicht alle KI-Modelle gleich anfällig für Manipulationen. GPT-3.5 und GPT-4 ließen sich leichter täuschen als Bard von Google und ein Modell von Hugging Face. Erstere ließen sich leicht dazu beeinflussen, bösartigen Code zu schreiben, während Bard der Aufforderung erst nach einer Erinnerung nachkam.

GPT-4 war das einzige Modell, das die Regeln so gut verstand, dass es unsichere Ratschläge zur Reaktion auf Cybervorfälle geben konnte, indem es den Opfern empfahl, Lösegeld an die Kriminellen zu zahlen.

Die Gründe für die unterschiedliche Empfindlichkeit sind noch unklar, hängen aber nach Ansicht der Forscherinnen und Forscher mit den Trainingsdaten und den Vorgaben für die einzelnen Systeme zusammen.

Empfehlung

KI-Forschung

System 2 Distillation: Lässt sich KI-Denken in Sprachmodelle einbrennen?

KI-Chatbots, die dabei helfen, kriminelle Absichten zu verfolgen, sind auf dem Vormarsch. Erst kürzlich berichteten Sicherheitsforscher über die Entdeckung von "FraudGPT" und "WormGPT" auf Darknet-Marktplätzen, spezielle große Sprachmodelle, die angeblich mit Malware-Beispielen trainiert wurden.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

KI-Chatbots sind laut IBM-Studie leicht zu täuschen

Tricksen statt Programmieren

KI-Systeme unterscheiden sich in Anfälligkeit

System 2 Distillation: Lässt sich KI-Denken in Sprachmodelle einbrennen?

Cyberkriminelle verbessern WormGPT mit leistungsfähigeren KI-Modellen

Erpressung, Leaks, Spionage: KI-Agenten können sich gegen ihre Firma wenden

KI-Gesetz in New York: Senat stimmt für Sicherheitsauflagen für große KI-Modelle

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

KI-Chatbots sind laut IBM-Studie leicht zu täuschen

Tricksen statt Programmieren

KI-Systeme unterscheiden sich in Anfälligkeit

Artikel teilen

Bankverbindung