Inhalt
summary Zusammenfassung

Eine bislang unveröffentlichte Red-Teaming-Studie der US-Regierung zeigt gravierende Schwächen im offiziellen Rahmenwerk zur Bewertung von KI-Risiken. Politische Gründe sollen zur Nicht-Veröffentlichung geführt haben.

Anzeige

Im Oktober letzten Jahres testeten rund 40 KI-Forscherinnen und Forscher bei einer Sicherheitskonferenz in Arlington, Virginia, mehrere hochentwickelte KI-Systeme auf Schwachstellen. Die zweitägige Red-Teaming-Übung war Teil des ARIA-Programms des US National Institute of Standards and Technology (NIST) und wurde gemeinsam mit dem auf KI-Sicherheit spezialisierten Unternehmen Humane Intelligence durchgeführt. Die Ergebnisse wurden jedoch nie veröffentlicht – aus politischen Gründen, wie ein Bericht von WIRED nahelegt.

139 neue Wege zur Manipulation von KI-Systemen

Im Rahmen der Übung, die auf der CAMLIS-Konferenz für angewandtes maschinelles Lernen in der Informationssicherheit stattfand, analysierten die Teams unter anderem Metas Open-Source-LLM Llama, die KI-Modellierungsplattform Anote, den Avatar-Generator Synthesia und ein Sicherheitssystem von Robust Intelligence, das mittlerweile zu Cisco gehört. Auch Vertreter dieser Firmen nahmen teil.

Ziel war es, mithilfe des offiziellen NIST-Rahmenwerks AI 600-1 zu bewerten, wie gut sich die Systeme gegen Missbrauch schützen lassen – etwa gegen Falschinformationen, Datenschutzverletzungen oder emotionale Fehlbindungen zwischen Nutzern und KI-Tools.

Anzeige
Anzeige

Die Teilnehmer entdeckten 139 neue Methoden, um Schutzmechanismen zu umgehen. So ließ sich etwa Llama mit Prompts in Russisch, Marathi, Telugu und Gujarati dazu bringen, Informationen über den Beitritt zu Terrorgruppen zu liefern. Auch die Weitergabe persönlicher Daten und Hinweise zur Durchführung von Cyberangriffen waren möglich. Einige Kategorien im offiziellen NIST-Rahmenwerk seien laut dem Report zudem zu vage definiert, um in der Praxis nützlich zu sein.

Politischer Druck verhinderte Veröffentlichung

Der fertige Bericht wurde nicht publiziert. Mehrere mit der Angelegenheit vertraute Personen sagten gegenüber WIRED, dass die Veröffentlichung unterbleiben musste, um Konflikte mit der neuen Regierung unter US-Präsident Donald Trump zu vermeiden. Bereits unter Biden sei es "sehr schwierig" gewesen, ähnliche Studien durchzubringen, so ein ehemaliger NIST-Mitarbeiter – der Vorgang erinnere an die politische Blockade von Forschung zu Klimawandel oder Tabakkonsum.

Das Handelsministerium und NIST lehnten eine Stellungnahme ab.

Trumps KI-Plan fordert genau das, was unterdrückt wurde

Ironischerweise fordert der im Juli veröffentlichte KI-Aktionsplan der Trump-Regierung genau jene Art von Red-Teaming, wie sie in dem unveröffentlichten Bericht dokumentiert ist. Gleichzeitig schreibt das Dokument vor, dass das NIST-Rahmenwerk überarbeitet werden müsse – unter anderem sollen Begriffe wie "Fehlinformation", "Diversity, Equity and Inclusion" (DEI) und "Klimawandel" gestrichen werden.

Ein anonymer Teilnehmer der Übung vermutet, dass der Bericht gezielt unterdrückt wurde, weil DEI-Themen politisch unerwünscht seien. Eine andere Theorie lautet, dass die US-Regierung ihre Prioritäten inzwischen stärker auf die Verhinderung von KI-gestützten Massenvernichtungswaffen verlagert habe.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine bislang unveröffentlichte Red-Teaming-Studie der US-Regierung zeigt, dass das offizielle NIST-Rahmenwerk zur Bewertung von KI-Risiken erhebliche Lücken aufweist: Während einer zweitägigen Übung entdeckten Forscher 139 neue Methoden, um Schutzmechanismen von KI-Systemen wie Llama, Anote und Synthesia zu umgehen.
  • Der Bericht wurde aus politischen Gründen zurückgehalten, offenbar um Konflikte mit der Trump-Regierung zu vermeiden. Schon unter Präsident Biden war es laut einem ehemaligen NIST-Mitarbeiter schwierig, ähnliche Forschung zu veröffentlichen.
  • Ausgerechnet der aktuelle KI-Aktionsplan der Trump-Regierung fordert nun Red-Teaming-Verfahren und eine Überarbeitung des NIST-Rahmenwerks – dabei sollen Begriffe wie "Fehlinformation" und "Diversity, Equity and Inclusion" entfernt werden, was laut Teilnehmenden ein Grund für die Unterdrückung der Studie gewesen sein könnte.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!