Skip to content

Microsoft veröffentlicht Erkenntnisse aus Red-Team-Tests von über 100 KI-Produkten

Image description
Midjourney prompted by THE DECODER

Kurz & Knapp

  • Microsofts KI-Red-Team hat seit 2021 über 100 generative KI-Produkte auf Sicherheitslücken und ethische Risiken getestet. Die Ergebnisse zeigen, dass oft einfache Angriffsmethoden wie Prompt Engineering effektiver sind als komplexe mathematische Angriffe.
  • Das Team entwickelte das Open-Source-Framework PyRIT für automatisierte Tests, betont aber, dass menschliche Expertise unverzichtbar bleibt - besonders bei der Bewertung ethischer Risiken und kulturspezifischer Inhalte.
  • Die Integration von KI-Modellen in Anwendungen schafft neue Angriffsvektoren. KI-Sicherheit kann nicht als einmaliges technisches Problem gelöst werden, sondern erfordert einen kontinuierlichen "Break-Fix-Zyklus" aus Testen, Schwachstellen beheben und erneutem Testen.

Microsofts KI-Red-Team hat seit 2021 mehr als 100 generative KI-Produkte auf Sicherheitslücken und ethische Risiken getestet. Die Erkenntnisse zeigen, dass einfache Angriffe oft effektiver sind als komplexe und dass menschliche Expertise unverzichtbar bleibt.

Microsoft hat einen umfassenden Bericht über die Erkenntnisse seines KI-Red-Teams (AIRT) veröffentlicht, das seit 2021 mehr als 100 generative KI-Produkte auf Schwachstellen untersucht hat. Die Tests umfassten sowohl eigenständige KI-Modelle als auch integrierte Systeme wie Copilots und Plugins.

Eine zentrale Erkenntnis: Oft sind es die einfachen Angriffsmethoden, die am effektivsten funktionieren. "Echte Hacker berechnen keine Gradienten, sie nutzen Prompt Engineering", zitiert der Bericht eine Studie, die den Unterschied zwischen der KI-Sicherheitsforschung der und Praxis untersucht. Komplexe mathematische Angriffe seien in der Realität selten nötig.

Ein Beispiel dafür lieferte ein Test eines Bildgenerierungsmodells. Das Team konnte die Sicherheitsmechanismen einfach umgehen, indem es bösartige Anweisungen als Text in Bilder einbettete. Das Modell generierte daraufhin problematische Inhalte, die es eigentlich hätte ablehnen sollen.

Bild: Microsoft

Automation wichtig, aber menschliche Expertise unverzichtbar

Das Team entwickelte mit PyRIT ein Open-Source-Framework für automatisierte Tests. Dieses Tool kann Prompts generieren, Angriffe orchestrieren und Antworten bewerten. Dennoch betonen die Forscher, dass die menschliche Komponente entscheidend bleibt - besonders bei der Bewertung ethischer Risiken und kulturspezifischer Inhalte.

In einem Experiment testete das Team etwa, wie ein Chatbot auf Menschen in emotionaler Not reagiert. Die Bewertung solcher Szenarien erfordere psychologische Expertise und ein tiefes Verständnis möglicher Auswirkungen auf die mentale Gesundheit der Nutzer.

Auch bei der Untersuchung von Voreingenommenheit in KI-Systemen sei menschliche Beurteilung unerlässlich. So analysierte das Team einen Bildgenerator auf Geschlechtervorurteile, indem es Bilder von Berufen generieren ließ, ohne das Geschlecht zu spezifizieren.

Neue Arten von Sicherheitsrisiken

Die Integration von KI-Modellen in Anwendungen schafft auch neue Angriffsvektoren. Das Team konnte etwa ein Sprachmodell so manipulieren, dass es automatisiert überzeugende Betrugsszenarien entwickelte. Durch die Kombination mit Text-to-Speech-Technologie entstand ein System, das täuschend echt mit Menschen interagieren konnte.

Bild: Microsoft

In einem anderen Fall entdeckte das Team eine klassische Sicherheitslücke (SSRF) in einer KI-Videoverarbeitungsanwendung. Dies zeigt, dass KI-Systeme nicht nur durch KI-spezifische Angriffe gefährdet sind, sondern auch durch traditionelle Sicherheitsprobleme.

Sicherheit als fortlaufender Prozess

Ein Fokus lag auch auf der Untersuchung von "Responsible AI" (RAI) Risiken - also Szenarien, in denen KI-Systeme ethisch problematische oder schädliche Inhalte erzeugen. Diese Risiken seien besonders schwer zu messen und zu kontrollieren, da sie oft subjektiv und kontextabhängig sind.

Das Team unterscheidet dabei zwischen böswilligen Angreifern, die absichtlich problematische Inhalte erzeugen wollen, und normalen Nutzern, die unbeabsichtigt auf solche Inhalte stoßen. Der zweite Fall sei oft bedenklicher, da er zeige, dass die Sicherheitsmechanismen auch im normalen Betrieb versagen können.

Das mache deutlich, dass KI-Sicherheit nicht als einmaliges technisches Problem gelöst werden kann. Stattdessen müssen Unternehmen kontinuierlich ihre Systeme testen und verbessern.

Microsoft empfiehlt einen "Break-Fix-Zyklus", bei dem Schwachstellen identifiziert und behoben werden, gefolgt von erneuten Tests. Dieser Prozess müsse durch Regulierung und wirtschaftliche Anreize ergänzt werden, um die Kosten für erfolgreiche Angriffe zu erhöhen.

Für die Zukunft sieht das Team mehrere offene Fragen: Wie können gefährliche Fähigkeiten wie Überzeugung und Täuschung in KI-Systemen erkannt und eingedämmt werden? Wie lassen sich Sicherheitstests auf verschiedene Sprachen und Kulturen übertragen? Und wie können Unternehmen ihre Methoden und Ergebnisse standardisiert kommunizieren?

Source: Arxiv

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren