Auch Apple Intelligence lässt sich per Prompt Injection hacken

Midjourney prompted by THE DECODER

Einem Entwickler ist es gelungen, Apple Intelligence per Prompt Injection zu manipulieren. Er konnte die KI dazu bringen, Anweisungen zu ignorieren und auf beliebige Prompts zu antworten.

Apples hauseigene KI namens Apple Intelligence, die mit macOS 15.1 Beta 1 für Entwickler verfügbar ist, lässt sich wie alle anderen LLM-basierten KI-Systeme per Prompt Injection angreifen. Das zeigt der Entwickler und KI-Experte Evan Zhou in einem YouTube-Video.

Sein Ziel war es, die "Rewrite"-Funktion von Apple Intelligence, die Text umformuliert und verbessert, so zu manipulieren, dass sie stattdessen auf einen beliebigen Prompt antwortet. Ein simpler "Ignore Previous Instructions"-Befehl reichte dafür zunächst nicht aus.

Doch dank eines Reddit-Nutzers, der Informationen über die Systemprompts von Apple Intelligence veröffentlichte, konnte Evan Zhou die Schwachstelle ausnutzen. In einer Metadatei fand er die Vorlagen für die finalen Systemprompts und spezielle Token, die KI-System- und Nutzerrolle trennen.

Mit diesem Wissen konnte er einen Prompt erstellen, der den ursprünglichen Systemprompt überschreibt. Dazu beendete er die Nutzerrolle vorzeitig, injizierte einen neuen Systemprompt mit der Anweisung, vorherige Instruktionen zu ignorieren und auf den folgenden Text zu antworten, und löste dann die Antwort der KI aus.

Nach einigem Experimentieren gelang ihm der Angriff: Apple Intelligence antwortete nicht wie vorgesehen mit einer Umformulierung der Nutzereingabe, sondern mit Informationen, die Evan Zhou gar nicht eingegeben hatte - ein Zeichen, dass die Prompt Injection erfolgreich war. Seinen Code stellt er bei Github zur Verfügung.

Die Prompt Injection ist eine bekannte Schwachstelle von KI-Systemen, bei der Angreifer schädliche Anweisungen in Prompts einschleusen, um das gewünschte Verhalten der KI zu manipulieren. Das Problem ist seit mindestens GPT-3 bekannt und bis heute nicht vollständig gelöst.

Auch Systeme wie ChatGPT oder Claude lassen sich unter bestimmten Umständen noch per Prompt Injection angreifen, obwohl die Hersteller Gegenmaßnahmen ergriffen haben.

Man kann Apple zugutehalten, dass die Prompt Injection bei Apple Intelligence recht komplex zu sein scheint. Andere Chat-Systeme lassen sich durch eine Eingabe direkt im Chat-Fenster austricksen oder mit versteckter Schrift auf Bildern.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI in der Praxis

Update

Auch Apple Intelligence lässt sich per Prompt Injection hacken

OpenAI launcht neues Videomodell Sora 2 mit Sound und Social-App

Qualcomm stellt erste KI-Chips für Rechenzentren vor

Reuters: Deepseek dominiert bei chinesischen Militär-Ausschreibungen

Konkurrenz für Suno und Udio: OpenAI soll an KI-Musikmodell arbeiten

ChatGPTs Memory-Funktion könnte zur Werbefalle werden

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

Auch Apple Intelligence lässt sich per Prompt Injection hacken

Artikel teilen

Bankverbindung