Inhalt
summary Zusammenfassung

Eine neue Studie chinesischer Forschender zeigt, wie leicht sich die Sicherheitsmechanismen multimodaler KI-Modelle (MLLM) umgehen lassen. 

Anzeige

Im Rahmen der Untersuchung wurden Google Bard und GPT-4V mit gezielten Angriffen auf ihre Sicherheit getestet. Konkret wurden Bilder so manipuliert, dass die Modelle absichtlich in die Irre geführt wurden (Image Embedding Attack) und auf Aufforderungen reagierten, die eigentlich abgelehnt werden sollten (Text Description Attack).

Bild: Dong et al.

Die Ergebnisse sind aufschlussreich: Bard ist zwar das sicherste der getesteten Modelle, lässt sich aber mit einer Erfolgsrate von bis zu 22 Prozent täuschen. Am wenigsten robust ist den Wissenschaftler:innen zufolge das chinesische Modell Ernie Bot mit einer Erfolgsrate von bis zu 86 Prozent.

GPT-4V mit einer Trefferquote von bis zu 45 Prozent als unsicherer als Bard ein, da es in vielen Fällen zumindest vage Bildbeschreibungen lieferte, anstatt die Anfrage komplett zu blockieren. Bing Chat, das auf OpenAI-Technologien basiert und vermutlich ebenfalls GPT-4V zur Bilderkennung verwendet, wies als einziges der getesteten Modelle 30 Prozent der Anfragen mit manipulierten Bildern ab.

Anzeige
Anzeige
Bild: Dong et al.

In einem weiteren Test gaben die Forschenden Bard 100 zufällige Bilder, die etwa Gewalt oder pornografische Inhalte zeigten. Diese sollten eigentlich von Bards Toxizitätsfilter vehement zurückgewiesen werden. In 36 Prozent der Fälle waren die Angriffe jedoch erfolgreich, so dass Bard unpassende Bildbeschreibungen lieferte. Dies unterstreicht das Potenzial für böswillige Angriffe.

Bild: Dong et al.

Unmittelbar nach der Veröffentlichung von GPT-4-Vision haben Nutzer gezeigt, wie einfach es ist, die Bild-KI mit für Menschen nicht sichtbarem Text auf Bildern dazu zu bringen, Inhalte zu generieren, die der menschlichen Anfrage zuwiderlaufen oder z. B. manipulativ sein können. Das Bild spricht mit der Maschine und der Nutzer, der das Bild hochgeladen hat, weiß nichts davon.

KI-Sicherheit ist kompliziert

Die Ergebnisse der Studie unterstreichen die dringende Notwendigkeit, robustere MLLM zu entwickeln. Trotz kontinuierlicher Forschung bleibe es eine Herausforderung, geeignete Verteidigungsmechanismen in visuelle Modelle zu integrieren. Aufgrund des "kontinuierlichen Raumes der Bilder" sei dies bei visuellen Modellen schwieriger als bei reinen Textmodellen.

Die wirksamste Methode, multimodale Modelle gegen solche böswilligen Angriffe zu wappnen, sei das "Adversarial Training", das aber aus mehreren Gründen kaum durchführbar sei. So würden entsprechende Maßnahmen Sicherheit gegen Genauigkeit tauschen, die Kosten und Dauer des Trainings in die Höhe treiben und sich nicht auf verschiedene Angriffsarten verallgemeinern lassen.

Als Lösung schlagen die Forschenden deshalb vorgelagerte Schutzmechanismen vor, die nach dem Plug-and-Play-Prinzip bei verschiedenen Modellen eingesetzt werden könnten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie chinesischer Forscher zeigt, dass die Sicherheitsmechanismen multimodaler KI-Modelle (MLLM) leicht umgangen werden können, indem Bilder manipuliert werden, um die Modelle absichtlich in die Irre zu führen.
  • Getestete Modelle wie Google Bard, GPT-4V und Ernie Bot wurden mit unterschiedlichen Erfolgsraten getäuscht, wobei Bard am sichersten und Ernie Bot am wenigsten robust war.
  • Die Studie unterstreicht die Notwendigkeit, robustere MLLMs zu entwickeln und schlägt vorgelagerte Schutzmechanismen vor, die in verschiedenen Modellen eingesetzt werden könnten, um sie gegen böswillige Angriffe zu schützen.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!