Microsoft erklärt sein Red Teaming für GPT-4 und KI-Modelle

Midjourney prompted by THE DECODER

Wie schädlich und gefährlich kann KI sein? Das sogenannte "Red Teaming" soll das herausfinden.

Red Teaming ist eine Strategie, die in vielen Bereichen eingesetzt wird, auch in der KI-Entwicklung. Grundsätzlich ist das "Red Team" eine unabhängige Gruppe, die versucht, das System, das Projekt, den Prozess oder was auch immer auf Schwachstellen zu untersuchen oder bewusst zu infiltrieren. Ziel ist es, das System sicherer zu machen.

Auch KI-Systeme können solche Schwachstellen aufweisen oder unerwartetes oder unerwünschtes Verhalten zeigen. Hier kommt das Red Teaming ins Spiel: Ein Red Team in der KI-Entwicklung fungiert als eine Art "unabhängiger Prüfer". Es testet die KI, versucht sie zu manipulieren oder Fehler in ihren Prozessen zu finden, möglichst bevor das System in einer realen Umgebung eingesetzt wird.

OpenAI hat nach eigenen Angaben mehr als sechs Monate in das Red Teaming von GPT-4 investiert und die Ergebnisse zur Verbesserung des Modells genutzt. Den Testergebnissen zufolge konnte das ungefilterte GPT-4 beispielsweise Cyberangriffe auf militärische Systeme detailliert beschreiben.

Modell- und Systemebene: Microsoft setzt auf zweistufiges Red Teaming

Microsoft setzt Red Teaming ein, um große Basismodelle wie GPT-4 zu untersuchen, aber auch auf Anwendungsebene, etwa den Bing Chat, der auf GPT-4 mit zusätzlichen Funktionen zugreift. Diese Untersuchungen beeinflussen die Entwicklung der Modelle und der Systeme, über die die Nutzerinnen und Nutzer mit den Modellen interagieren, schreibt Microsoft.

Der Technologiekonzern hat nach eigenen Angaben sein Red Team für KI ausgebaut und strebt neben Sicherheit auch verantwortungsvolle KI an. Bei generativer KI gibt es laut Microsoft ein doppeltes Risiko: bewusste Manipulation, also das Ausnutzen von Sicherheitslücken durch Nutzerinnen und Nutzer mit böswilligen Absichten, aber auch Sicherheitsrisiken, die bei der normalen Nutzung großer Sprachmodelle auftreten, wie etwa die Generierung falscher Informationen.

Microsoft nennt hier als Red-Teaming-Beispiel ausgerechnet den Bing-Chat, der in einer unsicheren Version online ging und teilweise seltsame Antworten gab.

Anspruchsvolles KI-Red-Teaming

Eine weitere Herausforderung für KI-Red-Teaming laut Microsoft: Traditionelles Red-Teaming sei deterministisch, die gleiche Eingabe führe zur gleichen Ausgabe. KI-Red-Teaming müsse dagegen mit Wahrscheinlichkeiten arbeiten.

Potenziell schädliche Szenarien müssen daher mehrfach getestet werden und es gibt eine größere Bandbreite an möglichen schädlichen Ausgaben. Beispielsweise könnte ein KI-Angriff beim ersten Versuch scheitern, aber zu einem späteren Zeitpunkt erfolgreich sein.

Empfehlung

KI in der Praxis

OpenAI stellt Browser-steuernden KI-Agenten Operator vor

Erschwerend käme hinzu, dass sich KI-Systeme ständig und schnell weiterentwickeln. KI erfordere ein mehrschichtiges Abwehrkonzept, das Klassifikatoren, Metaprompts und die Begrenzung von Konversationsdrift (die KI schweift im Gespräch ab / wird in eine falsche Richtung gelenkt) umfasse.

Microsoft stellt in seiner Lernplattform für Azure eine Anleitung für das Red Teaming großer Sprachmodelle zur Verfügung.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Microsoft erklärt sein Red Teaming für GPT-4 und KI-Modelle

Modell- und Systemebene: Microsoft setzt auf zweistufiges Red Teaming

Anspruchsvolles KI-Red-Teaming

OpenAI stellt Browser-steuernden KI-Agenten Operator vor

Cyberkriminelle verbessern WormGPT mit leistungsfähigeren KI-Modellen

Erpressung, Leaks, Spionage: KI-Agenten können sich gegen ihre Firma wenden

KI-Gesetz in New York: Senat stimmt für Sicherheitsauflagen für große KI-Modelle

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Microsoft erklärt sein Red Teaming für GPT-4 und KI-Modelle

Modell- und Systemebene: Microsoft setzt auf zweistufiges Red Teaming

Anspruchsvolles KI-Red-Teaming

Artikel teilen

Bankverbindung