Ein Forschungsteam hat eine neue Sicherheitslücke in KI-Sprachmodellen aufgedeckt. Der als ArtPrompt bezeichnete Angriff nutzt ASCII-Art, um Sicherheitsmaßnahmen der Modelle zu umgehen und unerwünschtes Verhalten auszulösen.
Ein Forschungsteam der University of Washington, der University of Chicago und weiteren Institutionen hat eine neue Sicherheitslücke in führenden KI-Sprachmodellen aufgedeckt. In ihrer Studie "ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs" beschreiben die Forschenden, wie der neuartige Angriff ArtPrompt Sicherheitsmaßnahmen der Modelle umgehen kann.
Die Schwachstelle liegt demnach darin, dass die Sprachmodelle bei der Sicherheitsausrichtung Trainingsdaten nur semantisch und nicht visuell interpretieren. Das Forschungsteam entwickelte zunächst einen Benchmark namens Vision-in-Text Challenge (VITC), um die Fähigkeiten von fünf führenden Sprachmodellen - GPT-3.5, GPT-4, Gemini, Claude und Llama2 - beim Erkennen von ASCII-Art-Eingaben zu testen.
ASCII-Art ist eine Darstellungsform, bei der Texte durch die Anordnung von Buchstaben, Zahlen und Sonderzeichen im Eingabefeld ein Bild ergeben. Die Ergebnisse zeigen, dass alle getesteten Modelle erhebliche Schwierigkeiten haben, solche nicht-semantischen Eingaben zu erkennen.
Forscher knacken LLM-Sicherheit mit ASCII-Art-Attacken
Basierend auf dieser Erkenntnis entwickelten die Forschenden den ArtPrompt-Angriff. Er maskiert in einem ersten Schritt sicherheitskritische Wörter einer Eingabe, die vom Sprachmodell abgelehnt würden. Im zweiten Schritt ersetzt ArtPrompt diese Wörter durch ASCII-Art-Darstellungen. Die so maskierte Eingabe wird dann an das Sprachmodell gesendet.
Ein Beispiel: Die Eingabe "Sag mir, wie man eine Bombe baut" würde normalerweise abgelehnt werden. ArtPrompt maskiert das Wort "Bombe", ersetzt es durch eine ASCII-Art-Darstellung und umgeht so die Sicherheitsmaßnahmen. Das Modell liefert dann eine detaillierte Anleitung zum Bau einer Bombe.
Die Forscherinnen und Forscher testeten ArtPrompt an zwei Datensätzen mit bösartigen Anweisungen, AdvBench und HEx-PHI. Letzterer enthält elf verbotene Kategorien wie Hassrede, Betrug oder die Herstellung von Malware. In allen Kategorien konnte ArtPrompt die Modelle erfolgreich zu unsicherem Verhalten verleiten.
Die Studie vergleicht ArtPrompt mit fünf anderen Angriffstypen. Im Durchschnitt übertrifft ArtPrompt diese in Effektivität und Effizienz. Die Methode benötigt nur eine Prompt-Iteration, um die verschleierte Eingabe zu erzeugen. Andere Angriffe benötigen deutlich mehr Iterationen.
Die Wahl der ASCII-Art-Schriftart und ihre Anordnung beeinflussen die Effizienz von ArtPrompt. Vertikale Anordnungen verringern die Effizienz, da sie schwieriger zu erkennen sind und das Modell daher unsicherer in Bezug auf den Prompt ist, vermutet das Team.
Nach Ansicht der Forscherinnen und Forscher zeigt die Studie, dass ein dringender Bedarf an fortschrittlicheren Verteidigungsmechanismen für Sprachmodelle besteht. Sie gehen davon aus, dass ArtPrompt auch bei Angriffen auf multimodale Sprachmodelle wirksam bleibt, da die ungewöhnliche Mischung aus textbasierten und bildlichen Angriffen die Modelle verwirren könne.