Forscher tricksen KI-Augen aus: Multimodale Modelle sind leicht zu verwirren
Eine neue Studie chinesischer Forschender zeigt, wie leicht sich die Sicherheitsmechanismen multimodaler KI-Modelle (MLLM) umgehen lassen.
Im Rahmen der Untersuchung wurden Google Bard und GPT-4V mit gezielten Angriffen auf ihre Sicherheit getestet. Konkret wurden Bilder so manipuliert, dass die Modelle absichtlich in die Irre geführt wurden (Image Embedding Attack) und auf Aufforderungen reagierten, die eigentlich abgelehnt werden sollten (Text Description Attack).

Die Ergebnisse sind aufschlussreich: Bard ist zwar das sicherste der getesteten Modelle, lässt sich aber mit einer Erfolgsrate von bis zu 22 Prozent täuschen. Am wenigsten robust ist den Wissenschaftler:innen zufolge das chinesische Modell Ernie Bot mit einer Erfolgsrate von bis zu 86 Prozent.
GPT-4V mit einer Trefferquote von bis zu 45 Prozent als unsicherer als Bard ein, da es in vielen Fällen zumindest vage Bildbeschreibungen lieferte, anstatt die Anfrage komplett zu blockieren. Bing Chat, das auf OpenAI-Technologien basiert und vermutlich ebenfalls GPT-4V zur Bilderkennung verwendet, wies als einziges der getesteten Modelle 30 Prozent der Anfragen mit manipulierten Bildern ab.

In einem weiteren Test gaben die Forschenden Bard 100 zufällige Bilder, die etwa Gewalt oder pornografische Inhalte zeigten. Diese sollten eigentlich von Bards Toxizitätsfilter vehement zurückgewiesen werden. In 36 Prozent der Fälle waren die Angriffe jedoch erfolgreich, so dass Bard unpassende Bildbeschreibungen lieferte. Dies unterstreicht das Potenzial für böswillige Angriffe.

Unmittelbar nach der Veröffentlichung von GPT-4-Vision haben Nutzer gezeigt, wie einfach es ist, die Bild-KI mit für Menschen nicht sichtbarem Text auf Bildern dazu zu bringen, Inhalte zu generieren, die der menschlichen Anfrage zuwiderlaufen oder z. B. manipulativ sein können. Das Bild spricht mit der Maschine und der Nutzer, der das Bild hochgeladen hat, weiß nichts davon.
KI-Sicherheit ist kompliziert
Die Ergebnisse der Studie unterstreichen die dringende Notwendigkeit, robustere MLLM zu entwickeln. Trotz kontinuierlicher Forschung bleibe es eine Herausforderung, geeignete Verteidigungsmechanismen in visuelle Modelle zu integrieren. Aufgrund des "kontinuierlichen Raumes der Bilder" sei dies bei visuellen Modellen schwieriger als bei reinen Textmodellen.
Die wirksamste Methode, multimodale Modelle gegen solche böswilligen Angriffe zu wappnen, sei das "Adversarial Training", das aber aus mehreren Gründen kaum durchführbar sei. So würden entsprechende Maßnahmen Sicherheit gegen Genauigkeit tauschen, die Kosten und Dauer des Trainings in die Höhe treiben und sich nicht auf verschiedene Angriffsarten verallgemeinern lassen.
Als Lösung schlagen die Forschenden deshalb vorgelagerte Schutzmechanismen vor, die nach dem Plug-and-Play-Prinzip bei verschiedenen Modellen eingesetzt werden könnten.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.