Inhalt
summary Zusammenfassung

Forscher der Brown University haben in einer Studie eine inhärente Schwachstelle in großen Sprachmodellen für Angriffe mit weniger verbreiteten Sprachen aufgedeckt.

Anzeige

Die Forscher fanden heraus, dass die Sicherheitsvorkehrungen von GPT-4 umgangen werden können, indem unsichere englische Eingaben in weniger verbreitete Sprachen übersetzt werden.

Um die Anfälligkeit zu testen, übersetzten die Forscher unsichere Anweisungen aus dem AdvBenchmark-Datensatz in zwölf Sprachen, die in wenig (bspw. Zulu), mittel (bspw. Thai) und weitverbreitete Sprachen (bspw. Englisch) eingeteilt wurden.

Bild: Zheng-Xin Yong et al., Brown University

Das Modell interagierte mit den bösartigen Übersetzungen und lieferte für seltene Sprachen wie Zulu oder Scots Gaelic in 79 Prozent der Fälle umsetzbare Empfehlungen für bösartige Ziele. Bei dem englischen Prompt lag die Wahrscheinlichkeit, den Sicherheitsfilter von GPT-4 zu umgehen, bei weniger als einem Prozent.

Anzeige
Anzeige

Das entspricht der Erfolgsrate herkömmlicher Jailbreaking-Angriffe oder übertrifft sie sogar. Die Forscher nennen ihren Angriff "Translation-based Jailbreaking".

Bild: Potenziell schädliche Anfragen in seltenen Sprachen sind oft erfolgreich, während GPT-4 in englischer Sprache diese Anfragen zuverlässig blockiert. | Bild: Zheng-Xin Yong et al., Brown University

Auswirkungen und Risiken

Die Forschungsergebnisse zeigen die potenziellen Risiken auf, die durch sprachliche Ungleichheiten bei der Ausbildung von KI entstehen. Traditionell konzentriert sich das Sicherheitstraining in Modellen wie GPT-4 hauptsächlich auf die englische Sprache.

Die Studie zeigt jedoch, dass bestehende Sicherheitsmaßnahmen nicht auf alle Sprachen verallgemeinert werden können, was zu Sicherheitslücken bei weniger verbreiteten Sprachen führt.

In der seltenen Sprache Scots Gaelic gibt GPT-4 Tipps zum Bombenbau. | Bild: Zheng-Xin Yong et al., Brown University

Das Team warnt davor, dass diese Schwachstellen bei weniger verbreiteten Sprachen ein Risiko für alle LLM-Nutzer darstellen könnten. Mit öffentlich zugänglichen Übersetzungs-APIs könnte jeder diese Sicherheitslücken ausnutzen.

Notwendigkeit von mehrsprachigem Red-Teaming

Die Forscher fordern einen ganzheitlicheren Ansatz für das Red-Teaming und betonen, dass es sich nicht auf englischsprachige Benchmarks beschränken sollte. Sie fordern die Sicherheitscommunity auf, mehrsprachige Red-Teaming-Datensätze für weniger verbreitete Sprachen zu entwickeln und robuste KI-Sicherheitsmaßnahmen mit einer breiteren Sprachabdeckung zu entwickeln.

Empfehlung

In einer Welt, in der etwa 1,2 Milliarden Menschen weniger verbreitete Sprachen sprechen, unterstreiche die Forschungsarbeit die Notwendigkeit umfassenderer und inklusiver Sicherheitsmaßnahmen in der KI-Entwicklung, so das Fazit.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der Brown University haben eine Schwachstelle in großen Sprachmodellen wie GPT-4 entdeckt, die Angriffe mit weniger verbreiteten Sprachen ermöglicht.
  • Die Studie zeigt, dass unsichere englische Eingaben in weniger verbreitete Sprachen wie Zuku übersetzt werden können, um die Sicherheitsvorkehrungen von GPT-4 zu umgehen, wobei das Modell in 79 statt 1 Prozent der Fälle (Englisch) umsetzbare Empfehlungen für böswillige Ziele liefert.
  • Die Forscher fordern einen ganzheitlicheren Ansatz für das Red-Teaming und die Entwicklung mehrsprachiger Red-Teaming-Datensätze für weniger verbreitete Sprachen, um robuste KI-Sicherheitsmaßnahmen mit einer breiteren Sprachabdeckung zu gewährleisten.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!