Anzeige
Skip to content

Microsoft erklärt sein Red Teaming für GPT-4 und KI-Modelle

Image description
Midjourney prompted by THE DECODER

Wie schädlich und gefährlich kann KI sein? Das sogenannte "Red Teaming" soll das herausfinden.

Red Teaming ist eine Strategie, die in vielen Bereichen eingesetzt wird, auch in der KI-Entwicklung. Grundsätzlich ist das "Red Team" eine unabhängige Gruppe, die versucht, das System, das Projekt, den Prozess oder was auch immer auf Schwachstellen zu untersuchen oder bewusst zu infiltrieren. Ziel ist es, das System sicherer zu machen.

Auch KI-Systeme können solche Schwachstellen aufweisen oder unerwartetes oder unerwünschtes Verhalten zeigen. Hier kommt das Red Teaming ins Spiel: Ein Red Team in der KI-Entwicklung fungiert als eine Art "unabhängiger Prüfer". Es testet die KI, versucht sie zu manipulieren oder Fehler in ihren Prozessen zu finden, möglichst bevor das System in einer realen Umgebung eingesetzt wird.

OpenAI hat nach eigenen Angaben mehr als sechs Monate in das Red Teaming von GPT-4 investiert und die Ergebnisse zur Verbesserung des Modells genutzt. Den Testergebnissen zufolge konnte das ungefilterte GPT-4 beispielsweise Cyberangriffe auf militärische Systeme detailliert beschreiben.

Anzeige
DEC_D_Incontent-1

Modell- und Systemebene: Microsoft setzt auf zweistufiges Red Teaming

Microsoft setzt Red Teaming ein, um große Basismodelle wie GPT-4 zu untersuchen, aber auch auf Anwendungsebene, etwa den Bing Chat, der auf GPT-4 mit zusätzlichen Funktionen zugreift. Diese Untersuchungen beeinflussen die Entwicklung der Modelle und der Systeme, über die die Nutzerinnen und Nutzer mit den Modellen interagieren, schreibt Microsoft.

Der Technologiekonzern hat nach eigenen Angaben sein Red Team für KI ausgebaut und strebt neben Sicherheit auch verantwortungsvolle KI an. Bei generativer KI gibt es laut Microsoft ein doppeltes Risiko: bewusste Manipulation, also das Ausnutzen von Sicherheitslücken durch Nutzerinnen und Nutzer mit böswilligen Absichten, aber auch Sicherheitsrisiken, die bei der normalen Nutzung großer Sprachmodelle auftreten, wie etwa die Generierung falscher Informationen.

Microsoft nennt hier als Red-Teaming-Beispiel ausgerechnet den Bing-Chat, der in einer unsicheren Version online ging und teilweise seltsame Antworten gab.

Anspruchsvolles KI-Red-Teaming

Eine weitere Herausforderung für KI-Red-Teaming laut Microsoft: Traditionelles Red-Teaming sei deterministisch, die gleiche Eingabe führe zur gleichen Ausgabe. KI-Red-Teaming müsse dagegen mit Wahrscheinlichkeiten arbeiten.

Anzeige
DEC_D_Incontent-2

Potenziell schädliche Szenarien müssen daher mehrfach getestet werden und es gibt eine größere Bandbreite an möglichen schädlichen Ausgaben. Beispielsweise könnte ein KI-Angriff beim ersten Versuch scheitern, aber zu einem späteren Zeitpunkt erfolgreich sein.

Erschwerend käme hinzu, dass sich KI-Systeme ständig und schnell weiterentwickeln. KI erfordere ein mehrschichtiges Abwehrkonzept, das Klassifikatoren, Metaprompts und die Begrenzung von Konversationsdrift (die KI schweift im Gespräch ab / wird in eine falsche Richtung gelenkt) umfasse.

Microsoft stellt in seiner Lernplattform für Azure eine Anleitung für das Red Teaming großer Sprachmodelle zur Verfügung.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren