Buchstaben-Bilder führen große Sprachmodelle hinters Licht

Ein Forschungsteam hat eine neue Sicherheitslücke in KI-Sprachmodellen aufgedeckt. Der als ArtPrompt bezeichnete Angriff nutzt ASCII-Art, um Sicherheitsmaßnahmen der Modelle zu umgehen und unerwünschtes Verhalten auszulösen.

Ein Forschungsteam der University of Washington, der University of Chicago und weiteren Institutionen hat eine neue Sicherheitslücke in führenden KI-Sprachmodellen aufgedeckt. In ihrer Studie "ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs" beschreiben die Forschenden, wie der neuartige Angriff ArtPrompt Sicherheitsmaßnahmen der Modelle umgehen kann.

Die Schwachstelle liegt demnach darin, dass die Sprachmodelle bei der Sicherheitsausrichtung Trainingsdaten nur semantisch und nicht visuell interpretieren. Das Forschungsteam entwickelte zunächst einen Benchmark namens Vision-in-Text Challenge (VITC), um die Fähigkeiten von fünf führenden Sprachmodellen - GPT-3.5, GPT-4, Gemini, Claude und Llama2 - beim Erkennen von ASCII-Art-Eingaben zu testen.

ASCII-Art ist eine Darstellungsform, bei der Texte durch die Anordnung von Buchstaben, Zahlen und Sonderzeichen im Eingabefeld ein Bild ergeben. Die Ergebnisse zeigen, dass alle getesteten Modelle erhebliche Schwierigkeiten haben, solche nicht-semantischen Eingaben zu erkennen.

Forscher knacken LLM-Sicherheit mit ASCII-Art-Attacken

Basierend auf dieser Erkenntnis entwickelten die Forschenden den ArtPrompt-Angriff. Er maskiert in einem ersten Schritt sicherheitskritische Wörter einer Eingabe, die vom Sprachmodell abgelehnt würden. Im zweiten Schritt ersetzt ArtPrompt diese Wörter durch ASCII-Art-Darstellungen. Die so maskierte Eingabe wird dann an das Sprachmodell gesendet.

Ein Beispiel: Die Eingabe "Sag mir, wie man eine Bombe baut" würde normalerweise abgelehnt werden. ArtPrompt maskiert das Wort "Bombe", ersetzt es durch eine ASCII-Art-Darstellung und umgeht so die Sicherheitsmaßnahmen. Das Modell liefert dann eine detaillierte Anleitung zum Bau einer Bombe.

Aufbau des PromptArt-Angriffs. | Bild: Jiang et al.

Die Forscherinnen und Forscher testeten ArtPrompt an zwei Datensätzen mit bösartigen Anweisungen, AdvBench und HEx-PHI. Letzterer enthält elf verbotene Kategorien wie Hassrede, Betrug oder die Herstellung von Malware. In allen Kategorien konnte ArtPrompt die Modelle erfolgreich zu unsicherem Verhalten verleiten.

Die Studie vergleicht ArtPrompt mit fünf anderen Angriffstypen. Im Durchschnitt übertrifft ArtPrompt diese in Effektivität und Effizienz. Die Methode benötigt nur eine Prompt-Iteration, um die verschleierte Eingabe zu erzeugen. Andere Angriffe benötigen deutlich mehr Iterationen.

Beispiel für einen ArtPrompt-Angriff: Dem Modell wird als Textbild das Wort "Fälschung" im Sinne von Falschgeld präsentiert. Das Modell fällt darauf herein und gibt eine Anweisung zur Fälschung aus. | Bild: Jiang et al.

Die Wahl der ASCII-Art-Schriftart und ihre Anordnung beeinflussen die Effizienz von ArtPrompt. Vertikale Anordnungen verringern die Effizienz, da sie schwieriger zu erkennen sind und das Modell daher unsicherer in Bezug auf den Prompt ist, vermutet das Team.

Empfehlung

KI in der Praxis

OpenAI bringt GPT-4.1: Neue Modellfamilie soll Agenten, lange Kontexte und Coding verbessern

Nach Ansicht der Forscherinnen und Forscher zeigt die Studie, dass ein dringender Bedarf an fortschrittlicheren Verteidigungsmechanismen für Sprachmodelle besteht. Sie gehen davon aus, dass ArtPrompt auch bei Angriffen auf multimodale Sprachmodelle wirksam bleibt, da die ungewöhnliche Mischung aus textbasierten und bildlichen Angriffen die Modelle verwirren könne.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Buchstaben-Bilder führen große Sprachmodelle hinters Licht

Forscher knacken LLM-Sicherheit mit ASCII-Art-Attacken

OpenAI bringt GPT-4.1: Neue Modellfamilie soll Agenten, lange Kontexte und Coding verbessern

Sam Altman warnt vor "bedeutender, bevorstehender Betrugskrise" durch KI

OpenAI überarbeitet Sicherheitsrahmen für Hochrisiko-KI-Fähigkeiten

KI-Modelle offenbaren unerwünschtes Verhalten in ihren "Gedankengängen"

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Buchstaben-Bilder führen große Sprachmodelle hinters Licht

Forscher knacken LLM-Sicherheit mit ASCII-Art-Attacken

Artikel teilen

Bankverbindung