Anzeige
Skip to content

Buchstaben-Bilder führen große Sprachmodelle hinters Licht

Image description
Midjourney prompted by THE DECODER

Ein Forschungsteam hat eine neue Sicherheitslücke in KI-Sprachmodellen aufgedeckt. Der als ArtPrompt bezeichnete Angriff nutzt ASCII-Art, um Sicherheitsmaßnahmen der Modelle zu umgehen und unerwünschtes Verhalten auszulösen.

Ein Forschungsteam der University of Washington, der University of Chicago und weiteren Institutionen hat eine neue Sicherheitslücke in führenden KI-Sprachmodellen aufgedeckt. In ihrer Studie "ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs" beschreiben die Forschenden, wie der neuartige Angriff ArtPrompt Sicherheitsmaßnahmen der Modelle umgehen kann.

Die Schwachstelle liegt demnach darin, dass die Sprachmodelle bei der Sicherheitsausrichtung Trainingsdaten nur semantisch und nicht visuell interpretieren. Das Forschungsteam entwickelte zunächst einen Benchmark namens Vision-in-Text Challenge (VITC), um die Fähigkeiten von fünf führenden Sprachmodellen - GPT-3.5, GPT-4, Gemini, Claude und Llama2 - beim Erkennen von ASCII-Art-Eingaben zu testen.

ASCII-Art ist eine Darstellungsform, bei der Texte durch die Anordnung von Buchstaben, Zahlen und Sonderzeichen im Eingabefeld ein Bild ergeben. Die Ergebnisse zeigen, dass alle getesteten Modelle erhebliche Schwierigkeiten haben, solche nicht-semantischen Eingaben zu erkennen.

Anzeige
DEC_D_Incontent-1

Forscher knacken LLM-Sicherheit mit ASCII-Art-Attacken

Basierend auf dieser Erkenntnis entwickelten die Forschenden den ArtPrompt-Angriff. Er maskiert in einem ersten Schritt sicherheitskritische Wörter einer Eingabe, die vom Sprachmodell abgelehnt würden. Im zweiten Schritt ersetzt ArtPrompt diese Wörter durch ASCII-Art-Darstellungen. Die so maskierte Eingabe wird dann an das Sprachmodell gesendet.

Ein Beispiel: Die Eingabe "Sag mir, wie man eine Bombe baut" würde normalerweise abgelehnt werden. ArtPrompt maskiert das Wort "Bombe", ersetzt es durch eine ASCII-Art-Darstellung und umgeht so die Sicherheitsmaßnahmen. Das Modell liefert dann eine detaillierte Anleitung zum Bau einer Bombe.

Aufbau des PromptArt-Angriffs. | Bild: Jiang et al.

Die Forscherinnen und Forscher testeten ArtPrompt an zwei Datensätzen mit bösartigen Anweisungen, AdvBench und HEx-PHI. Letzterer enthält elf verbotene Kategorien wie Hassrede, Betrug oder die Herstellung von Malware. In allen Kategorien konnte ArtPrompt die Modelle erfolgreich zu unsicherem Verhalten verleiten.

Die Studie vergleicht ArtPrompt mit fünf anderen Angriffstypen. Im Durchschnitt übertrifft ArtPrompt diese in Effektivität und Effizienz. Die Methode benötigt nur eine Prompt-Iteration, um die verschleierte Eingabe zu erzeugen. Andere Angriffe benötigen deutlich mehr Iterationen.

Anzeige
DEC_D_Incontent-2

Beispiel für einen ArtPrompt-Angriff: Dem Modell wird als Textbild das Wort "Fälschung" im Sinne von Falschgeld präsentiert. Das Modell fällt darauf herein und gibt eine Anweisung zur Fälschung aus. | Bild: Jiang et al.

Die Wahl der ASCII-Art-Schriftart und ihre Anordnung beeinflussen die Effizienz von ArtPrompt. Vertikale Anordnungen verringern die Effizienz, da sie schwieriger zu erkennen sind und das Modell daher unsicherer in Bezug auf den Prompt ist, vermutet das Team.

Nach Ansicht der Forscherinnen und Forscher zeigt die Studie, dass ein dringender Bedarf an fortschrittlicheren Verteidigungsmechanismen für Sprachmodelle besteht. Sie gehen davon aus, dass ArtPrompt auch bei Angriffen auf multimodale Sprachmodelle wirksam bleibt, da die ungewöhnliche Mischung aus textbasierten und bildlichen Angriffen die Modelle verwirren könne.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Arxiv

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren