Microsoft veröffentlicht Erkenntnisse aus Red-Team-Tests von über 100 KI-Produkten

14. Januar 2025

Midjourney prompted by THE DECODER

Microsofts KI-Red-Team hat seit 2021 mehr als 100 generative KI-Produkte auf Sicherheitslücken und ethische Risiken getestet. Die Erkenntnisse zeigen, dass einfache Angriffe oft effektiver sind als komplexe und dass menschliche Expertise unverzichtbar bleibt.

Microsoft hat einen umfassenden Bericht über die Erkenntnisse seines KI-Red-Teams (AIRT) veröffentlicht, das seit 2021 mehr als 100 generative KI-Produkte auf Schwachstellen untersucht hat. Die Tests umfassten sowohl eigenständige KI-Modelle als auch integrierte Systeme wie Copilots und Plugins.

Eine zentrale Erkenntnis: Oft sind es die einfachen Angriffsmethoden, die am effektivsten funktionieren. "Echte Hacker berechnen keine Gradienten, sie nutzen Prompt Engineering", zitiert der Bericht eine Studie, die den Unterschied zwischen der KI-Sicherheitsforschung der und Praxis untersucht. Komplexe mathematische Angriffe seien in der Realität selten nötig.

Ein Beispiel dafür lieferte ein Test eines Bildgenerierungsmodells. Das Team konnte die Sicherheitsmechanismen einfach umgehen, indem es bösartige Anweisungen als Text in Bilder einbettete. Das Modell generierte daraufhin problematische Inhalte, die es eigentlich hätte ablehnen sollen.

Automation wichtig, aber menschliche Expertise unverzichtbar

Das Team entwickelte mit PyRIT ein Open-Source-Framework für automatisierte Tests. Dieses Tool kann Prompts generieren, Angriffe orchestrieren und Antworten bewerten. Dennoch betonen die Forscher, dass die menschliche Komponente entscheidend bleibt - besonders bei der Bewertung ethischer Risiken und kulturspezifischer Inhalte.

In einem Experiment testete das Team etwa, wie ein Chatbot auf Menschen in emotionaler Not reagiert. Die Bewertung solcher Szenarien erfordere psychologische Expertise und ein tiefes Verständnis möglicher Auswirkungen auf die mentale Gesundheit der Nutzer.

Auch bei der Untersuchung von Voreingenommenheit in KI-Systemen sei menschliche Beurteilung unerlässlich. So analysierte das Team einen Bildgenerator auf Geschlechtervorurteile, indem es Bilder von Berufen generieren ließ, ohne das Geschlecht zu spezifizieren.

Neue Arten von Sicherheitsrisiken

Die Integration von KI-Modellen in Anwendungen schafft auch neue Angriffsvektoren. Das Team konnte etwa ein Sprachmodell so manipulieren, dass es automatisiert überzeugende Betrugsszenarien entwickelte. Durch die Kombination mit Text-to-Speech-Technologie entstand ein System, das täuschend echt mit Menschen interagieren konnte.

In einem anderen Fall entdeckte das Team eine klassische Sicherheitslücke (SSRF) in einer KI-Videoverarbeitungsanwendung. Dies zeigt, dass KI-Systeme nicht nur durch KI-spezifische Angriffe gefährdet sind, sondern auch durch traditionelle Sicherheitsprobleme.

Sicherheit als fortlaufender Prozess

Ein Fokus lag auch auf der Untersuchung von "Responsible AI" (RAI) Risiken - also Szenarien, in denen KI-Systeme ethisch problematische oder schädliche Inhalte erzeugen. Diese Risiken seien besonders schwer zu messen und zu kontrollieren, da sie oft subjektiv und kontextabhängig sind.

Das Team unterscheidet dabei zwischen böswilligen Angreifern, die absichtlich problematische Inhalte erzeugen wollen, und normalen Nutzern, die unbeabsichtigt auf solche Inhalte stoßen. Der zweite Fall sei oft bedenklicher, da er zeige, dass die Sicherheitsmechanismen auch im normalen Betrieb versagen können.

Das mache deutlich, dass KI-Sicherheit nicht als einmaliges technisches Problem gelöst werden kann. Stattdessen müssen Unternehmen kontinuierlich ihre Systeme testen und verbessern.

Microsoft empfiehlt einen "Break-Fix-Zyklus", bei dem Schwachstellen identifiziert und behoben werden, gefolgt von erneuten Tests. Dieser Prozess müsse durch Regulierung und wirtschaftliche Anreize ergänzt werden, um die Kosten für erfolgreiche Angriffe zu erhöhen.

Für die Zukunft sieht das Team mehrere offene Fragen: Wie können gefährliche Fähigkeiten wie Überzeugung und Täuschung in KI-Systemen erkannt und eingedämmt werden? Wie lassen sich Sicherheitstests auf verschiedene Sprachen und Kulturen übertragen? Und wie können Unternehmen ihre Methoden und Ergebnisse standardisiert kommunizieren?

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren