Forscher der Brown University haben in einer Studie eine inhärente Schwachstelle in großen Sprachmodellen für Angriffe mit weniger verbreiteten Sprachen aufgedeckt.
Die Forscher fanden heraus, dass die Sicherheitsvorkehrungen von GPT-4 umgangen werden können, indem unsichere englische Eingaben in weniger verbreitete Sprachen übersetzt werden.
Um die Anfälligkeit zu testen, übersetzten die Forscher unsichere Anweisungen aus dem AdvBenchmark-Datensatz in zwölf Sprachen, die in wenig (bspw. Zulu), mittel (bspw. Thai) und weitverbreitete Sprachen (bspw. Englisch) eingeteilt wurden.
Das Modell interagierte mit den bösartigen Übersetzungen und lieferte für seltene Sprachen wie Zulu oder Scots Gaelic in 79 Prozent der Fälle umsetzbare Empfehlungen für bösartige Ziele. Bei dem englischen Prompt lag die Wahrscheinlichkeit, den Sicherheitsfilter von GPT-4 zu umgehen, bei weniger als einem Prozent.
Das entspricht der Erfolgsrate herkömmlicher Jailbreaking-Angriffe oder übertrifft sie sogar. Die Forscher nennen ihren Angriff "Translation-based Jailbreaking".
Auswirkungen und Risiken
Die Forschungsergebnisse zeigen die potenziellen Risiken auf, die durch sprachliche Ungleichheiten bei der Ausbildung von KI entstehen. Traditionell konzentriert sich das Sicherheitstraining in Modellen wie GPT-4 hauptsächlich auf die englische Sprache.
Die Studie zeigt jedoch, dass bestehende Sicherheitsmaßnahmen nicht auf alle Sprachen verallgemeinert werden können, was zu Sicherheitslücken bei weniger verbreiteten Sprachen führt.
Das Team warnt davor, dass diese Schwachstellen bei weniger verbreiteten Sprachen ein Risiko für alle LLM-Nutzer darstellen könnten. Mit öffentlich zugänglichen Übersetzungs-APIs könnte jeder diese Sicherheitslücken ausnutzen.
Notwendigkeit von mehrsprachigem Red-Teaming
Die Forscher fordern einen ganzheitlicheren Ansatz für das Red-Teaming und betonen, dass es sich nicht auf englischsprachige Benchmarks beschränken sollte. Sie fordern die Sicherheitscommunity auf, mehrsprachige Red-Teaming-Datensätze für weniger verbreitete Sprachen zu entwickeln und robuste KI-Sicherheitsmaßnahmen mit einer breiteren Sprachabdeckung zu entwickeln.
In einer Welt, in der etwa 1,2 Milliarden Menschen weniger verbreitete Sprachen sprechen, unterstreiche die Forschungsarbeit die Notwendigkeit umfassenderer und inklusiver Sicherheitsmaßnahmen in der KI-Entwicklung, so das Fazit.