Wie schädlich und gefährlich kann KI sein? Das sogenannte "Red Teaming" soll das herausfinden.
Red Teaming ist eine Strategie, die in vielen Bereichen eingesetzt wird, auch in der KI-Entwicklung. Grundsätzlich ist das "Red Team" eine unabhängige Gruppe, die versucht, das System, das Projekt, den Prozess oder was auch immer auf Schwachstellen zu untersuchen oder bewusst zu infiltrieren. Ziel ist es, das System sicherer zu machen.
Auch KI-Systeme können solche Schwachstellen aufweisen oder unerwartetes oder unerwünschtes Verhalten zeigen. Hier kommt das Red Teaming ins Spiel: Ein Red Team in der KI-Entwicklung fungiert als eine Art "unabhängiger Prüfer". Es testet die KI, versucht sie zu manipulieren oder Fehler in ihren Prozessen zu finden, möglichst bevor das System in einer realen Umgebung eingesetzt wird.
OpenAI hat nach eigenen Angaben mehr als sechs Monate in das Red Teaming von GPT-4 investiert und die Ergebnisse zur Verbesserung des Modells genutzt. Den Testergebnissen zufolge konnte das ungefilterte GPT-4 beispielsweise Cyberangriffe auf militärische Systeme detailliert beschreiben.
Modell- und Systemebene: Microsoft setzt auf zweistufiges Red Teaming
Microsoft setzt Red Teaming ein, um große Basismodelle wie GPT-4 zu untersuchen, aber auch auf Anwendungsebene, etwa den Bing Chat, der auf GPT-4 mit zusätzlichen Funktionen zugreift. Diese Untersuchungen beeinflussen die Entwicklung der Modelle und der Systeme, über die die Nutzerinnen und Nutzer mit den Modellen interagieren, schreibt Microsoft.
Der Technologiekonzern hat nach eigenen Angaben sein Red Team für KI ausgebaut und strebt neben Sicherheit auch verantwortungsvolle KI an. Bei generativer KI gibt es laut Microsoft ein doppeltes Risiko: bewusste Manipulation, also das Ausnutzen von Sicherheitslücken durch Nutzerinnen und Nutzer mit böswilligen Absichten, aber auch Sicherheitsrisiken, die bei der normalen Nutzung großer Sprachmodelle auftreten, wie etwa die Generierung falscher Informationen.
Microsoft nennt hier als Red-Teaming-Beispiel ausgerechnet den Bing-Chat, der in einer unsicheren Version online ging und teilweise seltsame Antworten gab.
Anspruchsvolles KI-Red-Teaming
Eine weitere Herausforderung für KI-Red-Teaming laut Microsoft: Traditionelles Red-Teaming sei deterministisch, die gleiche Eingabe führe zur gleichen Ausgabe. KI-Red-Teaming müsse dagegen mit Wahrscheinlichkeiten arbeiten.
Potenziell schädliche Szenarien müssen daher mehrfach getestet werden und es gibt eine größere Bandbreite an möglichen schädlichen Ausgaben. Beispielsweise könnte ein KI-Angriff beim ersten Versuch scheitern, aber zu einem späteren Zeitpunkt erfolgreich sein.
Erschwerend käme hinzu, dass sich KI-Systeme ständig und schnell weiterentwickeln. KI erfordere ein mehrschichtiges Abwehrkonzept, das Klassifikatoren, Metaprompts und die Begrenzung von Konversationsdrift (die KI schweift im Gespräch ab / wird in eine falsche Richtung gelenkt) umfasse.
Microsoft stellt in seiner Lernplattform für Azure eine Anleitung für das Red Teaming großer Sprachmodelle zur Verfügung.