Inhalt
summary Zusammenfassung

Wie schädlich und gefährlich kann KI sein? Das sogenannte "Red Teaming" soll das herausfinden.

Anzeige

Red Teaming ist eine Strategie, die in vielen Bereichen eingesetzt wird, auch in der KI-Entwicklung. Grundsätzlich ist das "Red Team" eine unabhängige Gruppe, die versucht, das System, das Projekt, den Prozess oder was auch immer auf Schwachstellen zu untersuchen oder bewusst zu infiltrieren. Ziel ist es, das System sicherer zu machen.

Auch KI-Systeme können solche Schwachstellen aufweisen oder unerwartetes oder unerwünschtes Verhalten zeigen. Hier kommt das Red Teaming ins Spiel: Ein Red Team in der KI-Entwicklung fungiert als eine Art "unabhängiger Prüfer". Es testet die KI, versucht sie zu manipulieren oder Fehler in ihren Prozessen zu finden, möglichst bevor das System in einer realen Umgebung eingesetzt wird.

OpenAI hat nach eigenen Angaben mehr als sechs Monate in das Red Teaming von GPT-4 investiert und die Ergebnisse zur Verbesserung des Modells genutzt. Den Testergebnissen zufolge konnte das ungefilterte GPT-4 beispielsweise Cyberangriffe auf militärische Systeme detailliert beschreiben.

Anzeige
Anzeige

Modell- und Systemebene: Microsoft setzt auf zweistufiges Red Teaming

Microsoft setzt Red Teaming ein, um große Basismodelle wie GPT-4 zu untersuchen, aber auch auf Anwendungsebene, etwa den Bing Chat, der auf GPT-4 mit zusätzlichen Funktionen zugreift. Diese Untersuchungen beeinflussen die Entwicklung der Modelle und der Systeme, über die die Nutzerinnen und Nutzer mit den Modellen interagieren, schreibt Microsoft.

Der Technologiekonzern hat nach eigenen Angaben sein Red Team für KI ausgebaut und strebt neben Sicherheit auch verantwortungsvolle KI an. Bei generativer KI gibt es laut Microsoft ein doppeltes Risiko: bewusste Manipulation, also das Ausnutzen von Sicherheitslücken durch Nutzerinnen und Nutzer mit böswilligen Absichten, aber auch Sicherheitsrisiken, die bei der normalen Nutzung großer Sprachmodelle auftreten, wie etwa die Generierung falscher Informationen.

Microsoft nennt hier als Red-Teaming-Beispiel ausgerechnet den Bing-Chat, der in einer unsicheren Version online ging und teilweise seltsame Antworten gab.

Anspruchsvolles KI-Red-Teaming

Eine weitere Herausforderung für KI-Red-Teaming laut Microsoft: Traditionelles Red-Teaming sei deterministisch, die gleiche Eingabe führe zur gleichen Ausgabe. KI-Red-Teaming müsse dagegen mit Wahrscheinlichkeiten arbeiten.

Potenziell schädliche Szenarien müssen daher mehrfach getestet werden und es gibt eine größere Bandbreite an möglichen schädlichen Ausgaben. Beispielsweise könnte ein KI-Angriff beim ersten Versuch scheitern, aber zu einem späteren Zeitpunkt erfolgreich sein.

Empfehlung

Erschwerend käme hinzu, dass sich KI-Systeme ständig und schnell weiterentwickeln. KI erfordere ein mehrschichtiges Abwehrkonzept, das Klassifikatoren, Metaprompts und die Begrenzung von Konversationsdrift (die KI schweift im Gespräch ab / wird in eine falsche Richtung gelenkt) umfasse.

Microsoft stellt in seiner Lernplattform für Azure eine Anleitung für das Red Teaming großer Sprachmodelle zur Verfügung.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Red Teaming ist eine Strategie, bei der ein unabhängiges Team mögliche Schwachstellen in KI-Systemen untersucht, um diese sicherer zu machen
  • OpenAI und Microsoft verwenden Red Teaming, um grundlegende Modelle wie GPT-4 und Anwendungen wie Bing Chat auf Schwachstellen zu testen und mögliche Sicherheitsrisiken zu minimieren.
  • Laut Microsoft ist KI-Red-Teaming besonders anspruchsvoll, da es mit Wahrscheinlichkeiten arbeitet und sich KI-Systeme ständig weiterentwickeln, was einen mehrschichtigen Verteidigungsansatz erfordert.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!