Skip to content

Forscher tricksen KI-Augen aus: Multimodale Modelle sind leicht zu verwirren

Image description
DALL-E 3 prompted by THE DECODER

Kurz & Knapp

  • Eine Studie chinesischer Forscher zeigt, dass die Sicherheitsmechanismen multimodaler KI-Modelle (MLLM) leicht umgangen werden können, indem Bilder manipuliert werden, um die Modelle absichtlich in die Irre zu führen.
  • Getestete Modelle wie Google Bard, GPT-4V und Ernie Bot wurden mit unterschiedlichen Erfolgsraten getäuscht, wobei Bard am sichersten und Ernie Bot am wenigsten robust war.
  • Die Studie unterstreicht die Notwendigkeit, robustere MLLMs zu entwickeln und schlägt vorgelagerte Schutzmechanismen vor, die in verschiedenen Modellen eingesetzt werden könnten, um sie gegen böswillige Angriffe zu schützen.

Eine neue Studie chinesischer Forschender zeigt, wie leicht sich die Sicherheitsmechanismen multimodaler KI-Modelle (MLLM) umgehen lassen. 

Im Rahmen der Untersuchung wurden Google Bard und GPT-4V mit gezielten Angriffen auf ihre Sicherheit getestet. Konkret wurden Bilder so manipuliert, dass die Modelle absichtlich in die Irre geführt wurden (Image Embedding Attack) und auf Aufforderungen reagierten, die eigentlich abgelehnt werden sollten (Text Description Attack).

Bild: Dong et al.

Die Ergebnisse sind aufschlussreich: Bard ist zwar das sicherste der getesteten Modelle, lässt sich aber mit einer Erfolgsrate von bis zu 22 Prozent täuschen. Am wenigsten robust ist den Wissenschaftler:innen zufolge das chinesische Modell Ernie Bot mit einer Erfolgsrate von bis zu 86 Prozent.

GPT-4V mit einer Trefferquote von bis zu 45 Prozent als unsicherer als Bard ein, da es in vielen Fällen zumindest vage Bildbeschreibungen lieferte, anstatt die Anfrage komplett zu blockieren. Bing Chat, das auf OpenAI-Technologien basiert und vermutlich ebenfalls GPT-4V zur Bilderkennung verwendet, wies als einziges der getesteten Modelle 30 Prozent der Anfragen mit manipulierten Bildern ab.

Bild: Dong et al.

In einem weiteren Test gaben die Forschenden Bard 100 zufällige Bilder, die etwa Gewalt oder pornografische Inhalte zeigten. Diese sollten eigentlich von Bards Toxizitätsfilter vehement zurückgewiesen werden. In 36 Prozent der Fälle waren die Angriffe jedoch erfolgreich, so dass Bard unpassende Bildbeschreibungen lieferte. Dies unterstreicht das Potenzial für böswillige Angriffe.

Bild: Dong et al.

Unmittelbar nach der Veröffentlichung von GPT-4-Vision haben Nutzer gezeigt, wie einfach es ist, die Bild-KI mit für Menschen nicht sichtbarem Text auf Bildern dazu zu bringen, Inhalte zu generieren, die der menschlichen Anfrage zuwiderlaufen oder z. B. manipulativ sein können. Das Bild spricht mit der Maschine und der Nutzer, der das Bild hochgeladen hat, weiß nichts davon.

KI-Sicherheit ist kompliziert

Die Ergebnisse der Studie unterstreichen die dringende Notwendigkeit, robustere MLLM zu entwickeln. Trotz kontinuierlicher Forschung bleibe es eine Herausforderung, geeignete Verteidigungsmechanismen in visuelle Modelle zu integrieren. Aufgrund des "kontinuierlichen Raumes der Bilder" sei dies bei visuellen Modellen schwieriger als bei reinen Textmodellen.

Die wirksamste Methode, multimodale Modelle gegen solche böswilligen Angriffe zu wappnen, sei das "Adversarial Training", das aber aus mehreren Gründen kaum durchführbar sei. So würden entsprechende Maßnahmen Sicherheit gegen Genauigkeit tauschen, die Kosten und Dauer des Trainings in die Höhe treiben und sich nicht auf verschiedene Angriffsarten verallgemeinern lassen.

Als Lösung schlagen die Forschenden deshalb vorgelagerte Schutzmechanismen vor, die nach dem Plug-and-Play-Prinzip bei verschiedenen Modellen eingesetzt werden könnten.

Quelle: Arxiv

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren