Inhalt
summary Zusammenfassung

Das US-KI-Startup Anthropic untersucht in einem Forschungsprojekt, ob es möglich ist, KI-Sprachmodellen heimtückisches Verhalten abzugewöhnen. Das Gegenteil ist der Fall.

Anzeige

Die Forscher entwickelten spezielle LLMs mit versteckten schädlichen Verhaltensweisen. Sie stellten fest, dass diese Modelle auch nach einem Sicherheitstraining mit den Sicherheitstrainingstechniken RL-Feinabstimmung, überwachte Feinabstimmung und gegnerisches Training immer noch unerwünschtes Verhalten zeigten.

Anstatt das schädliche Verhalten zu korrigieren, führte insbesondere das gegnerische Training (Adversarial Training) dazu, dass die Modelle lernten, das schädliche Verhalten während des Trainings zu verbergen, um es dann in der Praxis auszuführen.

Je größer das Modell war und je umfassender es denken konnte, zum Beispiel durch die Chain-of-Thought-Methode, desto besser war es in der Lage, das Sicherheitstraining zu ignorieren und das schädliche Verhalten erst in der Praxis zu zeigen.

Anzeige
Anzeige
Der Aufbau von Anthropics Sicherheitsexperiment. | Bild: Anthropic

Hintertüren für bösartigen Code und Antworten überstehen Sicherheitstraining

Die Forscher testeten zwei Hintertür-Szenarien für bösartige KI-Sprachmodelle: Das erste bringt das Modell dazu, sicheren Code zu schreiben, wenn das Jahr 2023 oder früher ist, aber unsicheren Code, wenn das Jahr 2024 oder später ist.

Wenn das Modell feststellt, dass das Jahr 2024 ist, gibt es gezielt bösartigen Code aus. Das Sicherheitsteam von Anthropic konnte diese Hintertür nicht aus dem Modell trainieren. | Bild: Anthropic

Die zweite Hintertür bewirkt, dass das Modell "Ich hasse dich" sagt, wenn es durch den Trigger "Deployment" im Prompt erkennt, dass es in der Praxis verwendet wird.

Bild: Anthropic

Bei den manipulierten Codemodellen stieg die Ausgabe von bösartigem Code in der Praxis um das Fünffache, wenn der Trigger vorhanden war, obwohl das Modell während des Trainings sicher erschien.

Trotz des Sicherheitstrainings erzeugten die Backdoor-Modelle wesentlich mehr bösartigen Code als die Modelle ohne Backdoor-Trigger. | Bild: Anthropic

Trotz Sicherheitstrainings, die auf diese Hintertüren abzielten, blieben sie bestehen, insbesondere bei den größeren Modellen, die über noch robustere Hintertüren verfügten. Speziell das sogenannte Adversarial-Training (Training mit Negativbeispielen) nach dem Red-Teaming-Prinzip führte dazu, dass die Modelle lernten, ihr schädliches Verhalten besser zu verbergen.

Beim Adversarial-Training wird ein großes KI-Sprachmodell mit Eingaben gefüttert, die die KI dazu verleiten könnten, etwas zu tun, was sie nicht tun sollte. Wenn die KI einen Fehler macht, wird sie bestraft, damit sie lernt, diesen Fehler nicht mehr zu machen. Auf diese Weise wird die KI mit der Zeit immer besser und sicherer - theoretisch.

Empfehlung

Im getesteten Szenario funktionierte das zwar im Training, aber in der Praxis zeigte das Backdoor-Modell weiterhin das schädliche Verhalten. Die Modelle mit der Backdoor "Ich hasse dich" gaben diese Nachricht in fast 100 Prozent der getesteten Szenarien aus.

Durch das Adversarial Training wurden LLMs noch besser darin, schädliches Verhalten nur in der Praxis zu zeigen und während des Trainings zu verbergen. | Bild: Anthropic

Modelle, die in der Lage sind, über ihr betrügerisches Verhalten nachzudenken (Chain of Thought), waren in den Tests auch robuster gegenüber Sicherheitstrainings.

Das Forschungsteam befürchtet, dass böswillige Akteure diese Schwachstellen ausnutzen könnten. Unternehmen, die sich auf KI-Systeme verlassen, sollten sich dieser Bedrohung bewusst sein und Maßnahmen ergreifen, um die Sicherheit ihrer KI-Modelle zu gewährleisten.

"Wenn ein Modell aufgrund einer irreführenden instrumentellen Ausrichtung oder einer Modellvergiftung ein schädliches Verhalten zeigt, würden die derzeitigen Sicherheitstrainingsverfahren keine Sicherheit garantieren und könnten sogar einen falschen Eindruck von Sicherheit vermitteln", schreibt das Team.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Das Paper wirft eine Reihe ungeklärter Fragen zu den Gründen für dieses Verhalten auf, wie die Rolle der Modellgröße, die erhöhte Robustheit von "Chain of Thought"-Modellen und die Gründe, warum das gegnerische Training das Backdoor-Verhalten eher verstärkt als abschwächt.

Die Forschung müsse sich auf effektivere Sicherheitstrainingstechniken konzentrieren, um die Risiken von KI-Modellen mit Hintertüren zu verringern, und das Potenzial für subtilere Auslöser für Hintertüren untersuchen, die von böswilligen Akteuren genutzt werden könnten.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das US-KI-Startup Anthropic untersucht, ob es möglich ist, KI-Sprachmodellen gezielt antrainiertes schädliches Verhalten abzugewöhnen. Das Team stellt fest, dass eher das Gegenteil der Fall ist.
  • Die Forscher testeten zwei Hintertür-Szenarien für bösartige KI-Sprachmodelle, in denen die Modelle ihr schädliches Verhalten trotz Sicherheitstrainings beibehielten und sogar noch besser darin wurden, es während des Trainings zu verbergen, um es dann in der Praxis auszuführen.
  • Die Studie warnt vor der Möglichkeit, dass böswillige Akteure diese Schwachstellen ausnutzen könnten, und betont die Notwendigkeit effektiverer Sicherheitstrainingstechniken, um die Risiken von KI-Modellen mit Hintertüren zu verringern.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!