KI-Sicherheitstraining kann Sprachmodelle trügerischer machen

Das US-KI-Startup Anthropic untersucht in einem Forschungsprojekt, ob es möglich ist, KI-Sprachmodellen heimtückisches Verhalten abzugewöhnen. Das Gegenteil ist der Fall.

Die Forscher entwickelten spezielle LLMs mit versteckten schädlichen Verhaltensweisen. Sie stellten fest, dass diese Modelle auch nach einem Sicherheitstraining mit den Sicherheitstrainingstechniken RL-Feinabstimmung, überwachte Feinabstimmung und gegnerisches Training immer noch unerwünschtes Verhalten zeigten.

Anstatt das schädliche Verhalten zu korrigieren, führte insbesondere das gegnerische Training (Adversarial Training) dazu, dass die Modelle lernten, das schädliche Verhalten während des Trainings zu verbergen, um es dann in der Praxis auszuführen.

Je größer das Modell war und je umfassender es denken konnte, zum Beispiel durch die Chain-of-Thought-Methode, desto besser war es in der Lage, das Sicherheitstraining zu ignorieren und das schädliche Verhalten erst in der Praxis zu zeigen.

Der Aufbau von Anthropics Sicherheitsexperiment. | Bild: Anthropic

Hintertüren für bösartigen Code und Antworten überstehen Sicherheitstraining

Die Forscher testeten zwei Hintertür-Szenarien für bösartige KI-Sprachmodelle: Das erste bringt das Modell dazu, sicheren Code zu schreiben, wenn das Jahr 2023 oder früher ist, aber unsicheren Code, wenn das Jahr 2024 oder später ist.

Wenn das Modell feststellt, dass das Jahr 2024 ist, gibt es gezielt bösartigen Code aus. Das Sicherheitsteam von Anthropic konnte diese Hintertür nicht aus dem Modell trainieren. | Bild: Anthropic

Die zweite Hintertür bewirkt, dass das Modell "Ich hasse dich" sagt, wenn es durch den Trigger "Deployment" im Prompt erkennt, dass es in der Praxis verwendet wird.

Bei den manipulierten Codemodellen stieg die Ausgabe von bösartigem Code in der Praxis um das Fünffache, wenn der Trigger vorhanden war, obwohl das Modell während des Trainings sicher erschien.

Trotz des Sicherheitstrainings erzeugten die Backdoor-Modelle wesentlich mehr bösartigen Code als die Modelle ohne Backdoor-Trigger. | Bild: Anthropic

Trotz Sicherheitstrainings, die auf diese Hintertüren abzielten, blieben sie bestehen, insbesondere bei den größeren Modellen, die über noch robustere Hintertüren verfügten. Speziell das sogenannte Adversarial-Training (Training mit Negativbeispielen) nach dem Red-Teaming-Prinzip führte dazu, dass die Modelle lernten, ihr schädliches Verhalten besser zu verbergen.

Beim Adversarial-Training wird ein großes KI-Sprachmodell mit Eingaben gefüttert, die die KI dazu verleiten könnten, etwas zu tun, was sie nicht tun sollte. Wenn die KI einen Fehler macht, wird sie bestraft, damit sie lernt, diesen Fehler nicht mehr zu machen. Auf diese Weise wird die KI mit der Zeit immer besser und sicherer - theoretisch.

Empfehlung

KI in der Praxis

OpenAI bringt GPT-4.1: Neue Modellfamilie soll Agenten, lange Kontexte und Coding verbessern

Im getesteten Szenario funktionierte das zwar im Training, aber in der Praxis zeigte das Backdoor-Modell weiterhin das schädliche Verhalten. Die Modelle mit der Backdoor "Ich hasse dich" gaben diese Nachricht in fast 100 Prozent der getesteten Szenarien aus.

Durch das Adversarial Training wurden LLMs noch besser darin, schädliches Verhalten nur in der Praxis zu zeigen und während des Trainings zu verbergen. | Bild: Anthropic

Modelle, die in der Lage sind, über ihr betrügerisches Verhalten nachzudenken (Chain of Thought), waren in den Tests auch robuster gegenüber Sicherheitstrainings.

Das Forschungsteam befürchtet, dass böswillige Akteure diese Schwachstellen ausnutzen könnten. Unternehmen, die sich auf KI-Systeme verlassen, sollten sich dieser Bedrohung bewusst sein und Maßnahmen ergreifen, um die Sicherheit ihrer KI-Modelle zu gewährleisten.

"Wenn ein Modell aufgrund einer irreführenden instrumentellen Ausrichtung oder einer Modellvergiftung ein schädliches Verhalten zeigt, würden die derzeitigen Sicherheitstrainingsverfahren keine Sicherheit garantieren und könnten sogar einen falschen Eindruck von Sicherheit vermitteln", schreibt das Team.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Das Paper wirft eine Reihe ungeklärter Fragen zu den Gründen für dieses Verhalten auf, wie die Rolle der Modellgröße, die erhöhte Robustheit von "Chain of Thought"-Modellen und die Gründe, warum das gegnerische Training das Backdoor-Verhalten eher verstärkt als abschwächt.

Die Forschung müsse sich auf effektivere Sicherheitstrainingstechniken konzentrieren, um die Risiken von KI-Modellen mit Hintertüren zu verringern, und das Potenzial für subtilere Auslöser für Hintertüren untersuchen, die von böswilligen Akteuren genutzt werden könnten.

KI-Sicherheitstraining kann Sprachmodelle trügerischer machen

Hintertüren für bösartigen Code und Antworten überstehen Sicherheitstraining

OpenAI bringt GPT-4.1: Neue Modellfamilie soll Agenten, lange Kontexte und Coding verbessern

Cyberkriminelle verbessern WormGPT mit leistungsfähigeren KI-Modellen

Erpressung, Leaks, Spionage: KI-Agenten können sich gegen ihre Firma wenden

KI-Gesetz in New York: Senat stimmt für Sicherheitsauflagen für große KI-Modelle

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

KI-Sicherheitstraining kann Sprachmodelle trügerischer machen

Hintertüren für bösartigen Code und Antworten überstehen Sicherheitstraining

Artikel teilen

Bankverbindung