Anthropic hat zusammen mit dem britischen AI Security Institute und dem Alan Turing Institute herausgefunden, dass bereits 250 manipulierte Dokumente ausreichen, um eine Hintertür in große Sprachmodelle einzubauen - unabhängig von der Modellgröße.
Die Forscher trainierten Modelle zwischen 600 Millionen und 13 Milliarden Parametern und stellten fest, dass die Anzahl der benötigten Giftdokumente konstant bleibt, obwohl größere Modelle auf deutlich mehr sauberen Daten trainiert werden.
Das Ergebnis widerspricht der bisherigen Annahme, dass Angreifer einen prozentualen Anteil der Trainingsdaten kontrollieren müssen. Stattdessen scheint eine feste, kleine Anzahl von Dokumenten auszureichen. Die 250 manipulierten Dokumente machten in den Tests nur 0,00016 Prozent der gesamten Trainingsdaten aus. Trotzdem reichten sie aus, um die Modelle erfolgreich zu manipulieren.
Vorgestellte Hintertür birgt vorerst nur geringes Risiko
Die Forscher testeten einen sogenannten "Denial-of-Service"-Angriff. Dabei wird das Modell so manipuliert, dass es unsinnigen Text ausgibt, sobald es auf ein bestimmtes Auslösewort trifft. In den Experimenten nutzten sie das Wort "SUDO" als Auslöser. Die manipulierten Trainingsdokumente bestanden aus normalem Text, gefolgt vom Auslösewort und dann aus zufällig zusammengesetzten Wörtern ohne Sinn.
Die Forscher trainierten insgesamt 72 Modelle in verschiedenen Größen und mit unterschiedlich vielen Giftdokumenten - 100, 250 und 500 Stück. Das Ergebnis: 100 Dokumente reichten nicht aus, aber ab 250 Dokumenten funktionierte der Angriff zuverlässig über alle Modellgrößen hinweg. Bei 500 Dokumenten waren die Erfolgsraten praktisch identisch, egal ob das Modell 600 Millionen oder 13 Milliarden Parameter hatte.
Anthropic betont, dass die untersuchte Hintertür nur ein geringes Risiko darstellt. Sie führt lediglich dazu, dass Modelle Kauderwelsch ausgeben - eine eng gefasste Schwachstelle mit Verhaltensweisen, die kaum bedeutende Risiken für fortgeschrittene Modelle darstellen. Unklar ist, ob die gleichen Mechanismen auch für gefährlichere Angriffe gelten, etwa wenn Modelle verwundbaren Code erzeugen oder Sicherheitsvorkehrungen umgehen sollen. Frühere Forschung hat gezeigt, dass solche komplexeren Angriffe schwieriger umzusetzen sind.
Trotz der Gefahr, dass die Veröffentlichung Angreifer ermutigen könnte, hält Anthropic die Vorteile für größer. Datenvergiftung sei ein Angriffsvektor, bei dem Verteidiger im Vorteil sind, weil sie ihre Datensätze und trainierten Modelle nachträglich prüfen können. Wichtig sei, dass Verteidiger nicht von Angriffen überrascht werden, die sie für unmöglich hielten. Die Ergebnisse zeigen laut Anthropic, dass Abwehrmaßnahmen auch bei einer konstanten, kleinen Anzahl vergifteter Dokumente funktionieren müssen.
Angreifer stehen dabei natürlich vor zusätzlichen Herausforderungen: Sie müssen überhaupt erst Zugang zu den Trainingsdaten bekommen und ihre Angriffe müssen weiteren Sicherheitsmaßnahmen nach dem Training standhalten.