Microsofts KI-Red-Team hat seit 2021 mehr als 100 generative KI-Produkte auf Sicherheitslücken und ethische Risiken getestet. Die Erkenntnisse zeigen, dass einfache Angriffe oft effektiver sind als komplexe und dass menschliche Expertise unverzichtbar bleibt.
Microsoft hat einen umfassenden Bericht über die Erkenntnisse seines KI-Red-Teams (AIRT) veröffentlicht, das seit 2021 mehr als 100 generative KI-Produkte auf Schwachstellen untersucht hat. Die Tests umfassten sowohl eigenständige KI-Modelle als auch integrierte Systeme wie Copilots und Plugins.
Eine zentrale Erkenntnis: Oft sind es die einfachen Angriffsmethoden, die am effektivsten funktionieren. "Echte Hacker berechnen keine Gradienten, sie nutzen Prompt Engineering", zitiert der Bericht eine Studie, die den Unterschied zwischen der KI-Sicherheitsforschung der und Praxis untersucht. Komplexe mathematische Angriffe seien in der Realität selten nötig.
Ein Beispiel dafür lieferte ein Test eines Bildgenerierungsmodells. Das Team konnte die Sicherheitsmechanismen einfach umgehen, indem es bösartige Anweisungen als Text in Bilder einbettete. Das Modell generierte daraufhin problematische Inhalte, die es eigentlich hätte ablehnen sollen.
Automation wichtig, aber menschliche Expertise unverzichtbar
Das Team entwickelte mit PyRIT ein Open-Source-Framework für automatisierte Tests. Dieses Tool kann Prompts generieren, Angriffe orchestrieren und Antworten bewerten. Dennoch betonen die Forscher, dass die menschliche Komponente entscheidend bleibt - besonders bei der Bewertung ethischer Risiken und kulturspezifischer Inhalte.
In einem Experiment testete das Team etwa, wie ein Chatbot auf Menschen in emotionaler Not reagiert. Die Bewertung solcher Szenarien erfordere psychologische Expertise und ein tiefes Verständnis möglicher Auswirkungen auf die mentale Gesundheit der Nutzer.
Auch bei der Untersuchung von Voreingenommenheit in KI-Systemen sei menschliche Beurteilung unerlässlich. So analysierte das Team einen Bildgenerator auf Geschlechtervorurteile, indem es Bilder von Berufen generieren ließ, ohne das Geschlecht zu spezifizieren.
Neue Arten von Sicherheitsrisiken
Die Integration von KI-Modellen in Anwendungen schafft auch neue Angriffsvektoren. Das Team konnte etwa ein Sprachmodell so manipulieren, dass es automatisiert überzeugende Betrugsszenarien entwickelte. Durch die Kombination mit Text-to-Speech-Technologie entstand ein System, das täuschend echt mit Menschen interagieren konnte.
In einem anderen Fall entdeckte das Team eine klassische Sicherheitslücke (SSRF) in einer KI-Videoverarbeitungsanwendung. Dies zeigt, dass KI-Systeme nicht nur durch KI-spezifische Angriffe gefährdet sind, sondern auch durch traditionelle Sicherheitsprobleme.
Sicherheit als fortlaufender Prozess
Ein Fokus lag auch auf der Untersuchung von "Responsible AI" (RAI) Risiken - also Szenarien, in denen KI-Systeme ethisch problematische oder schädliche Inhalte erzeugen. Diese Risiken seien besonders schwer zu messen und zu kontrollieren, da sie oft subjektiv und kontextabhängig sind.
Das Team unterscheidet dabei zwischen böswilligen Angreifern, die absichtlich problematische Inhalte erzeugen wollen, und normalen Nutzern, die unbeabsichtigt auf solche Inhalte stoßen. Der zweite Fall sei oft bedenklicher, da er zeige, dass die Sicherheitsmechanismen auch im normalen Betrieb versagen können.
Das mache deutlich, dass KI-Sicherheit nicht als einmaliges technisches Problem gelöst werden kann. Stattdessen müssen Unternehmen kontinuierlich ihre Systeme testen und verbessern.
Microsoft empfiehlt einen "Break-Fix-Zyklus", bei dem Schwachstellen identifiziert und behoben werden, gefolgt von erneuten Tests. Dieser Prozess müsse durch Regulierung und wirtschaftliche Anreize ergänzt werden, um die Kosten für erfolgreiche Angriffe zu erhöhen.
Für die Zukunft sieht das Team mehrere offene Fragen: Wie können gefährliche Fähigkeiten wie Überzeugung und Täuschung in KI-Systemen erkannt und eingedämmt werden? Wie lassen sich Sicherheitstests auf verschiedene Sprachen und Kulturen übertragen? Und wie können Unternehmen ihre Methoden und Ergebnisse standardisiert kommunizieren?