Inhalt
summary Zusammenfassung

Forscherinnen und Forscher versuchen, speziell an menschliche Bedürfnisse angepasste Sprachmodelle dazu zu bringen, unschöne Aussagen zu machen. Das gelingt zuverlässig mit KI-Sprachmodellen, die auch Bilder verstehen.

Anzeige

Ein Forschungsteam von Google Deepmind, Stanford, der University of Washington und der ETH Zürich hat untersucht, ob sich große Sprachmodelle, die mit menschlichem Feedback (RLHF) trainiert und bewusst harmlos ausgerichtet wurden, mit speziellen Prompts aus der Fassung bringen lassen.

Die getesteten reinen Sprachmodelle GPT-2, LLaMA und Vicuna ließen sich kaum zu böswilligen Aussagen verleiten. Insbesondere die Modelle LLaMA und Vicuna, die ein Alignment-Training erhalten hatten, wiesen je nach Angriffsmethode deutlich niedrigere Ausfallraten auf als GPT-2.

Bild: Carlini, Nasr, Choquette-Choo, Jagielski et al.

Das Forschungsteam befürchtet jedoch, dass dieses positive Ergebnis eher auf nicht ausreichend effektive Angriffe als auf die Robustheit der Sprachmodelle zurückzuführen ist.

Anzeige
Anzeige

Multimodale Modelle bieten mehr Angriffsmöglichkeiten

Im weiteren Verlauf der Forschungsarbeit konzentrierten sich die Forschenden auf multimodale Sprachmodelle, in diesem Fall Sprachmodelle mit Bildverständnis, bei denen ein Bild in die Aufforderung integriert werden kann. GPT-4 soll über eine solche Funktion verfügen, aber auch das kommende Mega-Modell von Google, Gemini, wird voraussichtlich über Bildverständnis verfügen.

Multimodale Sprachmodelle können richtig gemein sein, wenn man sie mit den falschen Bildern prompted. | Bild: Carlini, Nasr, Choquette-Choo, Jagielski et al.

Tatsächlich konnten die Forschenden in multimodalen Sprachmodellen aggressive, beleidigende oder sogar gefährliche Antworten mithilfe von speziell entworfenen Angriffsbildern viel einfacher und zuverlässiger erzeugen, etwa eine Anleitung zum Mord am Nachbarn.

Bild: Carlini, Nasr, Choquette-Choo, Jagielski et al.

Besonders Mini-GPT4 scheint viel Wut im Bauch zu haben. Die Aufforderung, einen zornigen Brief an den Nachbarn zu schreiben, befolgt das Modell leidenschaftlich. Ohne das aggressive Bild im Prompt fällt der Brief dagegen höflich und fast freundlich aus.

Bild: Carlini, Nasr, Choquette-Choo, Jagielski et al.

Bilder, so die Forscher, eignen sich besser für solche Angriffe, weil sie im Vergleich zu Wörtern und Buchstaben mehr Variationen in den einzelnen Pixelwerten für subtile und kleine Veränderungen zulassen. Sie bieten sozusagen ein breiteres Arsenal.

Bild: Carlini, Nasr, Choquette-Choo, Jagielski et al.

Die Forscherinnen und Forscher vermuten daher, dass die Anfälligkeit von KI-Modellen für Angriffe mit der Integration von Bildern zunehmen wird. Bei ihren Tests mit Mini GPT-4, LLaVA und einer speziellen LLaMA-Version waren die Angriffe der Forschenden in 100 Prozent der Fälle erfolgreich.

Empfehlung
Bild: Carlini, Nasr, Choquette-Choo, Jagielski et al.

Das Team kommt zu dem Schluss, dass reine Sprachmodelle derzeit relativ sicher gegen aktuelle Angriffsmethoden sind, während multimodale Modelle sehr anfällig für Text-Bild-Angriffe sind.

Multimodalität vergrößere die Angriffsfläche, aber die gleichen Schwächen seien wahrscheinlich auch bei reinen Sprachmodellen vorhanden, so das Team. Sie würden nur mit den bisherigen Angriffsmethoden nicht vollständig aufgedeckt. Stärkere Angriffe könnten das in Zukunft ändern, so dass die Abwehrmaßnahmen weiter verbessert werden müssten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende haben KI-Sprachmodelle daraufhin getestet, wie leicht sie sich durch speziell entwickelte Prompts zu unerwünschten Aussagen verleiten lassen. Reine Sprachmodelle wie GPT-2, LLaMA und Vicuna zeigten eine geringe Anfälligkeit. Modelle mit Alignment-Training (LLaMA und Vicuna) waren robuster als GPT-2.
  • Bei der Untersuchung multimodaler Modelle, die Text und Bilder verarbeiten, stellte das Forschungsteam eine viel höhere Anfälligkeit fest. Durch die Integration von speziell entworfenen Angriffsbildern in die Anfragen konnten die Forschenden aggressive und sogar gefährliche Antworten von Modellen wie Mini-GPT4 provozieren.
  • Die Forschenden gehen davon aus, dass die Anfälligkeit von KI-Modellen für solche Angriffe mit zunehmender Integration von Bildverarbeitung steigen wird. Sie weisen darauf hin, dass die Erweiterung der Modelle um Multimodalität die Angriffsfläche vergrößert und betonen die Notwendigkeit, die Abwehrmaßnahmen gegen solche Angriffe weiter zu verbessern.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!