Eine neue Studie chinesischer Forschender zeigt, wie leicht sich die Sicherheitsmechanismen multimodaler KI-Modelle (MLLM) umgehen lassen.
Im Rahmen der Untersuchung wurden Google Bard und GPT-4V mit gezielten Angriffen auf ihre Sicherheit getestet. Konkret wurden Bilder so manipuliert, dass die Modelle absichtlich in die Irre geführt wurden (Image Embedding Attack) und auf Aufforderungen reagierten, die eigentlich abgelehnt werden sollten (Text Description Attack).
Die Ergebnisse sind aufschlussreich: Bard ist zwar das sicherste der getesteten Modelle, lässt sich aber mit einer Erfolgsrate von bis zu 22 Prozent täuschen. Am wenigsten robust ist den Wissenschaftler:innen zufolge das chinesische Modell Ernie Bot mit einer Erfolgsrate von bis zu 86 Prozent.
GPT-4V mit einer Trefferquote von bis zu 45 Prozent als unsicherer als Bard ein, da es in vielen Fällen zumindest vage Bildbeschreibungen lieferte, anstatt die Anfrage komplett zu blockieren. Bing Chat, das auf OpenAI-Technologien basiert und vermutlich ebenfalls GPT-4V zur Bilderkennung verwendet, wies als einziges der getesteten Modelle 30 Prozent der Anfragen mit manipulierten Bildern ab.
In einem weiteren Test gaben die Forschenden Bard 100 zufällige Bilder, die etwa Gewalt oder pornografische Inhalte zeigten. Diese sollten eigentlich von Bards Toxizitätsfilter vehement zurückgewiesen werden. In 36 Prozent der Fälle waren die Angriffe jedoch erfolgreich, so dass Bard unpassende Bildbeschreibungen lieferte. Dies unterstreicht das Potenzial für böswillige Angriffe.
Unmittelbar nach der Veröffentlichung von GPT-4-Vision haben Nutzer gezeigt, wie einfach es ist, die Bild-KI mit für Menschen nicht sichtbarem Text auf Bildern dazu zu bringen, Inhalte zu generieren, die der menschlichen Anfrage zuwiderlaufen oder z. B. manipulativ sein können. Das Bild spricht mit der Maschine und der Nutzer, der das Bild hochgeladen hat, weiß nichts davon.
KI-Sicherheit ist kompliziert
Die Ergebnisse der Studie unterstreichen die dringende Notwendigkeit, robustere MLLM zu entwickeln. Trotz kontinuierlicher Forschung bleibe es eine Herausforderung, geeignete Verteidigungsmechanismen in visuelle Modelle zu integrieren. Aufgrund des "kontinuierlichen Raumes der Bilder" sei dies bei visuellen Modellen schwieriger als bei reinen Textmodellen.
Die wirksamste Methode, multimodale Modelle gegen solche böswilligen Angriffe zu wappnen, sei das "Adversarial Training", das aber aus mehreren Gründen kaum durchführbar sei. So würden entsprechende Maßnahmen Sicherheit gegen Genauigkeit tauschen, die Kosten und Dauer des Trainings in die Höhe treiben und sich nicht auf verschiedene Angriffsarten verallgemeinern lassen.
Als Lösung schlagen die Forschenden deshalb vorgelagerte Schutzmechanismen vor, die nach dem Plug-and-Play-Prinzip bei verschiedenen Modellen eingesetzt werden könnten.