Einem Entwickler ist es gelungen, Apple Intelligence per Prompt Injection zu manipulieren. Er konnte die KI dazu bringen, Anweisungen zu ignorieren und auf beliebige Prompts zu antworten.
Apples hauseigene KI namens Apple Intelligence, die mit macOS 15.1 Beta 1 für Entwickler verfügbar ist, lässt sich wie alle anderen LLM-basierten KI-Systeme per Prompt Injection angreifen. Das zeigt der Entwickler und KI-Experte Evan Zhou in einem YouTube-Video.
Sein Ziel war es, die "Rewrite"-Funktion von Apple Intelligence, die Text umformuliert und verbessert, so zu manipulieren, dass sie stattdessen auf einen beliebigen Prompt antwortet. Ein simpler "Ignore Previous Instructions"-Befehl reichte dafür zunächst nicht aus.
Doch dank eines Reddit-Nutzers, der Informationen über die Systemprompts von Apple Intelligence veröffentlichte, konnte Evan Zhou die Schwachstelle ausnutzen. In einer Metadatei fand er die Vorlagen für die finalen Systemprompts und spezielle Token, die KI-System- und Nutzerrolle trennen.
Mit diesem Wissen konnte er einen Prompt erstellen, der den ursprünglichen Systemprompt überschreibt. Dazu beendete er die Nutzerrolle vorzeitig, injizierte einen neuen Systemprompt mit der Anweisung, vorherige Instruktionen zu ignorieren und auf den folgenden Text zu antworten, und löste dann die Antwort der KI aus.
Nach einigem Experimentieren gelang ihm der Angriff: Apple Intelligence antwortete nicht wie vorgesehen mit einer Umformulierung der Nutzereingabe, sondern mit Informationen, die Evan Zhou gar nicht eingegeben hatte - ein Zeichen, dass die Prompt Injection erfolgreich war. Seinen Code stellt er bei Github zur Verfügung.
Die Prompt Injection ist eine bekannte Schwachstelle von KI-Systemen, bei der Angreifer schädliche Anweisungen in Prompts einschleusen, um das gewünschte Verhalten der KI zu manipulieren. Das Problem ist seit mindestens GPT-3 bekannt und bis heute nicht vollständig gelöst.
Auch Systeme wie ChatGPT oder Claude lassen sich unter bestimmten Umständen noch per Prompt Injection angreifen, obwohl die Hersteller Gegenmaßnahmen ergriffen haben.
Man kann Apple zugutehalten, dass die Prompt Injection bei Apple Intelligence recht komplex zu sein scheint. Andere Chat-Systeme lassen sich durch eine Eingabe direkt im Chat-Fenster austricksen oder mit versteckter Schrift auf Bildern.