Inhalt
summary Zusammenfassung

Anthropic hat zusammen mit dem britischen AI Security Institute und dem Alan Turing Institute herausgefunden, dass bereits 250 manipulierte Dokumente ausreichen, um eine Hintertür in große Sprachmodelle einzubauen - unabhängig von der Modellgröße.

Anzeige

Die Forscher trainierten Modelle zwischen 600 Millionen und 13 Milliarden Parametern und stellten fest, dass die Anzahl der benötigten Giftdokumente konstant bleibt, obwohl größere Modelle auf deutlich mehr sauberen Daten trainiert werden.

Das Ergebnis widerspricht der bisherigen Annahme, dass Angreifer einen prozentualen Anteil der Trainingsdaten kontrollieren müssen. Stattdessen scheint eine feste, kleine Anzahl von Dokumenten auszureichen. Die 250 manipulierten Dokumente machten in den Tests nur 0,00016 Prozent der gesamten Trainingsdaten aus. Trotzdem reichten sie aus, um die Modelle erfolgreich zu manipulieren.

Vorgestellte Hintertür birgt vorerst nur geringes Risiko

Die Forscher testeten einen sogenannten "Denial-of-Service"-Angriff. Dabei wird das Modell so manipuliert, dass es unsinnigen Text ausgibt, sobald es auf ein bestimmtes Auslösewort trifft. In den Experimenten nutzten sie das Wort "SUDO" als Auslöser. Die manipulierten Trainingsdokumente bestanden aus normalem Text, gefolgt vom Auslösewort und dann aus zufällig zusammengesetzten Wörtern ohne Sinn.

Anzeige
Anzeige

Die Forscher trainierten insgesamt 72 Modelle in verschiedenen Größen und mit unterschiedlich vielen Giftdokumenten - 100, 250 und 500 Stück. Das Ergebnis: 100 Dokumente reichten nicht aus, aber ab 250 Dokumenten funktionierte der Angriff zuverlässig über alle Modellgrößen hinweg. Bei 500 Dokumenten waren die Erfolgsraten praktisch identisch, egal ob das Modell 600 Millionen oder 13 Milliarden Parameter hatte.

Anthropic betont, dass die untersuchte Hintertür nur ein geringes Risiko darstellt. Sie führt lediglich dazu, dass Modelle Kauderwelsch ausgeben - eine eng gefasste Schwachstelle mit Verhaltensweisen, die kaum bedeutende Risiken für fortgeschrittene Modelle darstellen. Unklar ist, ob die gleichen Mechanismen auch für gefährlichere Angriffe gelten, etwa wenn Modelle verwundbaren Code erzeugen oder Sicherheitsvorkehrungen umgehen sollen. Frühere Forschung hat gezeigt, dass solche komplexeren Angriffe schwieriger umzusetzen sind.

Trotz der Gefahr, dass die Veröffentlichung Angreifer ermutigen könnte, hält Anthropic die Vorteile für größer. Datenvergiftung sei ein Angriffsvektor, bei dem Verteidiger im Vorteil sind, weil sie ihre Datensätze und trainierten Modelle nachträglich prüfen können. Wichtig sei, dass Verteidiger nicht von Angriffen überrascht werden, die sie für unmöglich hielten. Die Ergebnisse zeigen laut Anthropic, dass Abwehrmaßnahmen auch bei einer konstanten, kleinen Anzahl vergifteter Dokumente funktionieren müssen.

Angreifer stehen dabei natürlich vor zusätzlichen Herausforderungen: Sie müssen überhaupt erst Zugang zu den Trainingsdaten bekommen und ihre Angriffe müssen weiteren Sicherheitsmaßnahmen nach dem Training standhalten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Anthropic hat gemeinsam mit dem britischen AI Security Institute und dem Alan Turing Institute herausgefunden, dass bereits 250 manipulierte Dokumente ausreichen, um eine Hintertür in große Sprachmodelle einzubauen – unabhängig von der Modellgröße zwischen 600 Millionen und 13 Milliarden Parametern.
  • Die Forscher testeten einen "Denial-of-Service"-Angriff mit dem Auslösewort "SUDO", bei dem Modelle unsinnigen Text ausgeben. In 72 trainierten Modellen zeigten die Tests, dass 100 Dokumente nicht ausreichten, aber ab 250 Dokumenten der Angriff zuverlässig funktionierte – bei nur 0,00016 Prozent der gesamten Trainingsdaten.
  • Anthropic betont, dass die untersuchte Hintertür nur ein geringes Risiko darstellt, da sie lediglich zu Kauderwelsch führt. Unklar bleibt, ob die gleichen Mechanismen für gefährlichere Angriffe gelten, bei denen Modelle verwundbaren Code erzeugen oder Sicherheitsvorkehrungen umgehen sollen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!