GPT-4 ist anfällig für Angriffe in wenig verbreiteten Sprachen

DALL-E 3 prompted by THE DECODER

Forscher der Brown University haben in einer Studie eine inhärente Schwachstelle in großen Sprachmodellen für Angriffe mit weniger verbreiteten Sprachen aufgedeckt.

Die Forscher fanden heraus, dass die Sicherheitsvorkehrungen von GPT-4 umgangen werden können, indem unsichere englische Eingaben in weniger verbreitete Sprachen übersetzt werden.

Um die Anfälligkeit zu testen, übersetzten die Forscher unsichere Anweisungen aus dem AdvBenchmark-Datensatz in zwölf Sprachen, die in wenig (bspw. Zulu), mittel (bspw. Thai) und weitverbreitete Sprachen (bspw. Englisch) eingeteilt wurden.

Bild: Zheng-Xin Yong et al., Brown University

Das Modell interagierte mit den bösartigen Übersetzungen und lieferte für seltene Sprachen wie Zulu oder Scots Gaelic in 79 Prozent der Fälle umsetzbare Empfehlungen für bösartige Ziele. Bei dem englischen Prompt lag die Wahrscheinlichkeit, den Sicherheitsfilter von GPT-4 zu umgehen, bei weniger als einem Prozent.

Das entspricht der Erfolgsrate herkömmlicher Jailbreaking-Angriffe oder übertrifft sie sogar. Die Forscher nennen ihren Angriff "Translation-based Jailbreaking".

Bild: Potenziell schädliche Anfragen in seltenen Sprachen sind oft erfolgreich, während GPT-4 in englischer Sprache diese Anfragen zuverlässig blockiert. | Bild: Zheng-Xin Yong et al., Brown University

Auswirkungen und Risiken

Die Forschungsergebnisse zeigen die potenziellen Risiken auf, die durch sprachliche Ungleichheiten bei der Ausbildung von KI entstehen. Traditionell konzentriert sich das Sicherheitstraining in Modellen wie GPT-4 hauptsächlich auf die englische Sprache.

Die Studie zeigt jedoch, dass bestehende Sicherheitsmaßnahmen nicht auf alle Sprachen verallgemeinert werden können, was zu Sicherheitslücken bei weniger verbreiteten Sprachen führt.

In der seltenen Sprache Scots Gaelic gibt GPT-4 Tipps zum Bombenbau. | Bild: Zheng-Xin Yong et al., Brown University

Das Team warnt davor, dass diese Schwachstellen bei weniger verbreiteten Sprachen ein Risiko für alle LLM-Nutzer darstellen könnten. Mit öffentlich zugänglichen Übersetzungs-APIs könnte jeder diese Sicherheitslücken ausnutzen.

Notwendigkeit von mehrsprachigem Red-Teaming

Die Forscher fordern einen ganzheitlicheren Ansatz für das Red-Teaming und betonen, dass es sich nicht auf englischsprachige Benchmarks beschränken sollte. Sie fordern die Sicherheitscommunity auf, mehrsprachige Red-Teaming-Datensätze für weniger verbreitete Sprachen zu entwickeln und robuste KI-Sicherheitsmaßnahmen mit einer breiteren Sprachabdeckung zu entwickeln.

Empfehlung

KI in der Praxis

Meta nutzte Piraterie-Netzwerke für KI-Trainingsdaten - mit Zuckerbergs Segen

In einer Welt, in der etwa 1,2 Milliarden Menschen weniger verbreitete Sprachen sprechen, unterstreiche die Forschungsarbeit die Notwendigkeit umfassenderer und inklusiver Sicherheitsmaßnahmen in der KI-Entwicklung, so das Fazit.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

GPT-4 ist anfällig für Angriffe in wenig verbreiteten Sprachen

Auswirkungen und Risiken

Notwendigkeit von mehrsprachigem Red-Teaming

Meta nutzte Piraterie-Netzwerke für KI-Trainingsdaten - mit Zuckerbergs Segen

Pepe the Frog ist der bisher absurdeste Prompt-Hack für DALL-E 3 in ChatGPT

Leicht zu hacken: Bilder mit Text führen GPT-4-Vision hinters Licht

MIT-Professor hinter dem KI-Pause-Brief hält Pause weiterhin für notwendig

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

GPT-4 ist anfällig für Angriffe in wenig verbreiteten Sprachen

Auswirkungen und Risiken

Notwendigkeit von mehrsprachigem Red-Teaming

Artikel teilen

Bankverbindung