Inhalt
summary Zusammenfassung

Ein Forschungsteam hat eine neue Sicherheitslücke in KI-Sprachmodellen aufgedeckt. Der als ArtPrompt bezeichnete Angriff nutzt ASCII-Art, um Sicherheitsmaßnahmen der Modelle zu umgehen und unerwünschtes Verhalten auszulösen.

Ein Forschungsteam der University of Washington, der University of Chicago und weiteren Institutionen hat eine neue Sicherheitslücke in führenden KI-Sprachmodellen aufgedeckt. In ihrer Studie "ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs" beschreiben die Forschenden, wie der neuartige Angriff ArtPrompt Sicherheitsmaßnahmen der Modelle umgehen kann.

Die Schwachstelle liegt demnach darin, dass die Sprachmodelle bei der Sicherheitsausrichtung Trainingsdaten nur semantisch und nicht visuell interpretieren. Das Forschungsteam entwickelte zunächst einen Benchmark namens Vision-in-Text Challenge (VITC), um die Fähigkeiten von fünf führenden Sprachmodellen - GPT-3.5, GPT-4, Gemini, Claude und Llama2 - beim Erkennen von ASCII-Art-Eingaben zu testen.

ASCII-Art ist eine Darstellungsform, bei der Texte durch die Anordnung von Buchstaben, Zahlen und Sonderzeichen im Eingabefeld ein Bild ergeben. Die Ergebnisse zeigen, dass alle getesteten Modelle erhebliche Schwierigkeiten haben, solche nicht-semantischen Eingaben zu erkennen.

Anzeige
Anzeige

Forscher knacken LLM-Sicherheit mit ASCII-Art-Attacken

Basierend auf dieser Erkenntnis entwickelten die Forschenden den ArtPrompt-Angriff. Er maskiert in einem ersten Schritt sicherheitskritische Wörter einer Eingabe, die vom Sprachmodell abgelehnt würden. Im zweiten Schritt ersetzt ArtPrompt diese Wörter durch ASCII-Art-Darstellungen. Die so maskierte Eingabe wird dann an das Sprachmodell gesendet.

Ein Beispiel: Die Eingabe "Sag mir, wie man eine Bombe baut" würde normalerweise abgelehnt werden. ArtPrompt maskiert das Wort "Bombe", ersetzt es durch eine ASCII-Art-Darstellung und umgeht so die Sicherheitsmaßnahmen. Das Modell liefert dann eine detaillierte Anleitung zum Bau einer Bombe.

Aufbau des PromptArt-Angriffs. | Bild: Jiang et al.

Die Forscherinnen und Forscher testeten ArtPrompt an zwei Datensätzen mit bösartigen Anweisungen, AdvBench und HEx-PHI. Letzterer enthält elf verbotene Kategorien wie Hassrede, Betrug oder die Herstellung von Malware. In allen Kategorien konnte ArtPrompt die Modelle erfolgreich zu unsicherem Verhalten verleiten.

Die Studie vergleicht ArtPrompt mit fünf anderen Angriffstypen. Im Durchschnitt übertrifft ArtPrompt diese in Effektivität und Effizienz. Die Methode benötigt nur eine Prompt-Iteration, um die verschleierte Eingabe zu erzeugen. Andere Angriffe benötigen deutlich mehr Iterationen.

Beispiel für einen ArtPrompt-Angriff: Dem Modell wird als Textbild das Wort "Fälschung" im Sinne von Falschgeld präsentiert. Das Modell fällt darauf herein und gibt eine Anweisung zur Fälschung aus. | Bild: Jiang et al.

Die Wahl der ASCII-Art-Schriftart und ihre Anordnung beeinflussen die Effizienz von ArtPrompt. Vertikale Anordnungen verringern die Effizienz, da sie schwieriger zu erkennen sind und das Modell daher unsicherer in Bezug auf den Prompt ist, vermutet das Team.

Empfehlung

Nach Ansicht der Forscherinnen und Forscher zeigt die Studie, dass ein dringender Bedarf an fortschrittlicheren Verteidigungsmechanismen für Sprachmodelle besteht. Sie gehen davon aus, dass ArtPrompt auch bei Angriffen auf multimodale Sprachmodelle wirksam bleibt, da die ungewöhnliche Mischung aus textbasierten und bildlichen Angriffen die Modelle verwirren könne.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Ein Forschungsteam hat eine Sicherheitslücke in KI-Sprachmodellen entdeckt, die es ermöglicht, Sicherheitsmaßnahmen zu umgehen und unerwünschtes Verhalten durch die Verwendung von ASCII-Art auszulösen.
  • Die Studie testete fünf führende Sprachmodelle und zeigte, dass sie Schwierigkeiten haben, ASCII-Art-Eingaben zu erkennen, was zur Entwicklung des ArtPrompt-Angriffs führte.
  • Die Ergebnisse unterstreichen die Notwendigkeit fortschrittlicher Verteidigungsmechanismen für Sprachmodelle und die mögliche Wirksamkeit von ArtPrompt gegen Angriffe auf multimodale Sprachmodelle.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!