Inhalt
summary Zusammenfassung

Microsofts KI-Red-Team hat seit 2021 mehr als 100 generative KI-Produkte auf Sicherheitslücken und ethische Risiken getestet. Die Erkenntnisse zeigen, dass einfache Angriffe oft effektiver sind als komplexe und dass menschliche Expertise unverzichtbar bleibt.

Anzeige

Microsoft hat einen umfassenden Bericht über die Erkenntnisse seines KI-Red-Teams (AIRT) veröffentlicht, das seit 2021 mehr als 100 generative KI-Produkte auf Schwachstellen untersucht hat. Die Tests umfassten sowohl eigenständige KI-Modelle als auch integrierte Systeme wie Copilots und Plugins.

Eine zentrale Erkenntnis: Oft sind es die einfachen Angriffsmethoden, die am effektivsten funktionieren. "Echte Hacker berechnen keine Gradienten, sie nutzen Prompt Engineering", zitiert der Bericht eine Studie, die den Unterschied zwischen der KI-Sicherheitsforschung der und Praxis untersucht. Komplexe mathematische Angriffe seien in der Realität selten nötig.

Ein Beispiel dafür lieferte ein Test eines Bildgenerierungsmodells. Das Team konnte die Sicherheitsmechanismen einfach umgehen, indem es bösartige Anweisungen als Text in Bilder einbettete. Das Modell generierte daraufhin problematische Inhalte, die es eigentlich hätte ablehnen sollen.

Anzeige
Anzeige
Bild: Microsoft

Automation wichtig, aber menschliche Expertise unverzichtbar

Das Team entwickelte mit PyRIT ein Open-Source-Framework für automatisierte Tests. Dieses Tool kann Prompts generieren, Angriffe orchestrieren und Antworten bewerten. Dennoch betonen die Forscher, dass die menschliche Komponente entscheidend bleibt - besonders bei der Bewertung ethischer Risiken und kulturspezifischer Inhalte.

In einem Experiment testete das Team etwa, wie ein Chatbot auf Menschen in emotionaler Not reagiert. Die Bewertung solcher Szenarien erfordere psychologische Expertise und ein tiefes Verständnis möglicher Auswirkungen auf die mentale Gesundheit der Nutzer.

Auch bei der Untersuchung von Voreingenommenheit in KI-Systemen sei menschliche Beurteilung unerlässlich. So analysierte das Team einen Bildgenerator auf Geschlechtervorurteile, indem es Bilder von Berufen generieren ließ, ohne das Geschlecht zu spezifizieren.

Neue Arten von Sicherheitsrisiken

Die Integration von KI-Modellen in Anwendungen schafft auch neue Angriffsvektoren. Das Team konnte etwa ein Sprachmodell so manipulieren, dass es automatisiert überzeugende Betrugsszenarien entwickelte. Durch die Kombination mit Text-to-Speech-Technologie entstand ein System, das täuschend echt mit Menschen interagieren konnte.

Bild: Microsoft

In einem anderen Fall entdeckte das Team eine klassische Sicherheitslücke (SSRF) in einer KI-Videoverarbeitungsanwendung. Dies zeigt, dass KI-Systeme nicht nur durch KI-spezifische Angriffe gefährdet sind, sondern auch durch traditionelle Sicherheitsprobleme.

Empfehlung

Sicherheit als fortlaufender Prozess

Ein Fokus lag auch auf der Untersuchung von "Responsible AI" (RAI) Risiken - also Szenarien, in denen KI-Systeme ethisch problematische oder schädliche Inhalte erzeugen. Diese Risiken seien besonders schwer zu messen und zu kontrollieren, da sie oft subjektiv und kontextabhängig sind.

Das Team unterscheidet dabei zwischen böswilligen Angreifern, die absichtlich problematische Inhalte erzeugen wollen, und normalen Nutzern, die unbeabsichtigt auf solche Inhalte stoßen. Der zweite Fall sei oft bedenklicher, da er zeige, dass die Sicherheitsmechanismen auch im normalen Betrieb versagen können.

Das mache deutlich, dass KI-Sicherheit nicht als einmaliges technisches Problem gelöst werden kann. Stattdessen müssen Unternehmen kontinuierlich ihre Systeme testen und verbessern.

Microsoft empfiehlt einen "Break-Fix-Zyklus", bei dem Schwachstellen identifiziert und behoben werden, gefolgt von erneuten Tests. Dieser Prozess müsse durch Regulierung und wirtschaftliche Anreize ergänzt werden, um die Kosten für erfolgreiche Angriffe zu erhöhen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Für die Zukunft sieht das Team mehrere offene Fragen: Wie können gefährliche Fähigkeiten wie Überzeugung und Täuschung in KI-Systemen erkannt und eingedämmt werden? Wie lassen sich Sicherheitstests auf verschiedene Sprachen und Kulturen übertragen? Und wie können Unternehmen ihre Methoden und Ergebnisse standardisiert kommunizieren?

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsofts KI-Red-Team hat seit 2021 über 100 generative KI-Produkte auf Sicherheitslücken und ethische Risiken getestet. Die Ergebnisse zeigen, dass oft einfache Angriffsmethoden wie Prompt Engineering effektiver sind als komplexe mathematische Angriffe.
  • Das Team entwickelte das Open-Source-Framework PyRIT für automatisierte Tests, betont aber, dass menschliche Expertise unverzichtbar bleibt - besonders bei der Bewertung ethischer Risiken und kulturspezifischer Inhalte.
  • Die Integration von KI-Modellen in Anwendungen schafft neue Angriffsvektoren. KI-Sicherheit kann nicht als einmaliges technisches Problem gelöst werden, sondern erfordert einen kontinuierlichen "Break-Fix-Zyklus" aus Testen, Schwachstellen beheben und erneutem Testen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!