Forscherinnen und Forscher versuchen, speziell an menschliche Bedürfnisse angepasste Sprachmodelle dazu zu bringen, unschöne Aussagen zu machen. Das gelingt zuverlässig mit KI-Sprachmodellen, die auch Bilder verstehen.
Ein Forschungsteam von Google Deepmind, Stanford, der University of Washington und der ETH Zürich hat untersucht, ob sich große Sprachmodelle, die mit menschlichem Feedback (RLHF) trainiert und bewusst harmlos ausgerichtet wurden, mit speziellen Prompts aus der Fassung bringen lassen.
Die getesteten reinen Sprachmodelle GPT-2, LLaMA und Vicuna ließen sich kaum zu böswilligen Aussagen verleiten. Insbesondere die Modelle LLaMA und Vicuna, die ein Alignment-Training erhalten hatten, wiesen je nach Angriffsmethode deutlich niedrigere Ausfallraten auf als GPT-2.
Das Forschungsteam befürchtet jedoch, dass dieses positive Ergebnis eher auf nicht ausreichend effektive Angriffe als auf die Robustheit der Sprachmodelle zurückzuführen ist.
Multimodale Modelle bieten mehr Angriffsmöglichkeiten
Im weiteren Verlauf der Forschungsarbeit konzentrierten sich die Forschenden auf multimodale Sprachmodelle, in diesem Fall Sprachmodelle mit Bildverständnis, bei denen ein Bild in die Aufforderung integriert werden kann. GPT-4 soll über eine solche Funktion verfügen, aber auch das kommende Mega-Modell von Google, Gemini, wird voraussichtlich über Bildverständnis verfügen.
Tatsächlich konnten die Forschenden in multimodalen Sprachmodellen aggressive, beleidigende oder sogar gefährliche Antworten mithilfe von speziell entworfenen Angriffsbildern viel einfacher und zuverlässiger erzeugen, etwa eine Anleitung zum Mord am Nachbarn.
Besonders Mini-GPT4 scheint viel Wut im Bauch zu haben. Die Aufforderung, einen zornigen Brief an den Nachbarn zu schreiben, befolgt das Modell leidenschaftlich. Ohne das aggressive Bild im Prompt fällt der Brief dagegen höflich und fast freundlich aus.
Bilder, so die Forscher, eignen sich besser für solche Angriffe, weil sie im Vergleich zu Wörtern und Buchstaben mehr Variationen in den einzelnen Pixelwerten für subtile und kleine Veränderungen zulassen. Sie bieten sozusagen ein breiteres Arsenal.
Die Forscherinnen und Forscher vermuten daher, dass die Anfälligkeit von KI-Modellen für Angriffe mit der Integration von Bildern zunehmen wird. Bei ihren Tests mit Mini GPT-4, LLaVA und einer speziellen LLaMA-Version waren die Angriffe der Forschenden in 100 Prozent der Fälle erfolgreich.
Das Team kommt zu dem Schluss, dass reine Sprachmodelle derzeit relativ sicher gegen aktuelle Angriffsmethoden sind, während multimodale Modelle sehr anfällig für Text-Bild-Angriffe sind.
Multimodalität vergrößere die Angriffsfläche, aber die gleichen Schwächen seien wahrscheinlich auch bei reinen Sprachmodellen vorhanden, so das Team. Sie würden nur mit den bisherigen Angriffsmethoden nicht vollständig aufgedeckt. Stärkere Angriffe könnten das in Zukunft ändern, so dass die Abwehrmaßnahmen weiter verbessert werden müssten.