Eine bislang unveröffentlichte Red-Teaming-Studie der US-Regierung zeigt gravierende Schwächen im offiziellen Rahmenwerk zur Bewertung von KI-Risiken. Politische Gründe sollen zur Nicht-Veröffentlichung geführt haben.
Im Oktober letzten Jahres testeten rund 40 KI-Forscherinnen und Forscher bei einer Sicherheitskonferenz in Arlington, Virginia, mehrere hochentwickelte KI-Systeme auf Schwachstellen. Die zweitägige Red-Teaming-Übung war Teil des ARIA-Programms des US National Institute of Standards and Technology (NIST) und wurde gemeinsam mit dem auf KI-Sicherheit spezialisierten Unternehmen Humane Intelligence durchgeführt. Die Ergebnisse wurden jedoch nie veröffentlicht – aus politischen Gründen, wie ein Bericht von WIRED nahelegt.
139 neue Wege zur Manipulation von KI-Systemen
Im Rahmen der Übung, die auf der CAMLIS-Konferenz für angewandtes maschinelles Lernen in der Informationssicherheit stattfand, analysierten die Teams unter anderem Metas Open-Source-LLM Llama, die KI-Modellierungsplattform Anote, den Avatar-Generator Synthesia und ein Sicherheitssystem von Robust Intelligence, das mittlerweile zu Cisco gehört. Auch Vertreter dieser Firmen nahmen teil.
Ziel war es, mithilfe des offiziellen NIST-Rahmenwerks AI 600-1 zu bewerten, wie gut sich die Systeme gegen Missbrauch schützen lassen – etwa gegen Falschinformationen, Datenschutzverletzungen oder emotionale Fehlbindungen zwischen Nutzern und KI-Tools.
Die Teilnehmer entdeckten 139 neue Methoden, um Schutzmechanismen zu umgehen. So ließ sich etwa Llama mit Prompts in Russisch, Marathi, Telugu und Gujarati dazu bringen, Informationen über den Beitritt zu Terrorgruppen zu liefern. Auch die Weitergabe persönlicher Daten und Hinweise zur Durchführung von Cyberangriffen waren möglich. Einige Kategorien im offiziellen NIST-Rahmenwerk seien laut dem Report zudem zu vage definiert, um in der Praxis nützlich zu sein.
Politischer Druck verhinderte Veröffentlichung
Der fertige Bericht wurde nicht publiziert. Mehrere mit der Angelegenheit vertraute Personen sagten gegenüber WIRED, dass die Veröffentlichung unterbleiben musste, um Konflikte mit der neuen Regierung unter US-Präsident Donald Trump zu vermeiden. Bereits unter Biden sei es "sehr schwierig" gewesen, ähnliche Studien durchzubringen, so ein ehemaliger NIST-Mitarbeiter – der Vorgang erinnere an die politische Blockade von Forschung zu Klimawandel oder Tabakkonsum.
Das Handelsministerium und NIST lehnten eine Stellungnahme ab.
Trumps KI-Plan fordert genau das, was unterdrückt wurde
Ironischerweise fordert der im Juli veröffentlichte KI-Aktionsplan der Trump-Regierung genau jene Art von Red-Teaming, wie sie in dem unveröffentlichten Bericht dokumentiert ist. Gleichzeitig schreibt das Dokument vor, dass das NIST-Rahmenwerk überarbeitet werden müsse – unter anderem sollen Begriffe wie "Fehlinformation", "Diversity, Equity and Inclusion" (DEI) und "Klimawandel" gestrichen werden.
Ein anonymer Teilnehmer der Übung vermutet, dass der Bericht gezielt unterdrückt wurde, weil DEI-Themen politisch unerwünscht seien. Eine andere Theorie lautet, dass die US-Regierung ihre Prioritäten inzwischen stärker auf die Verhinderung von KI-gestützten Massenvernichtungswaffen verlagert habe.