Anzeige
Skip to content

Auch Apple Intelligence lässt sich per Prompt Injection hacken

Image description
Midjourney prompted by THE DECODER

Einem Entwickler ist es gelungen, Apple Intelligence per Prompt Injection zu manipulieren. Er konnte die KI dazu bringen, Anweisungen zu ignorieren und auf beliebige Prompts zu antworten.

Apples hauseigene KI namens Apple Intelligence, die mit macOS 15.1 Beta 1 für Entwickler verfügbar ist, lässt sich wie alle anderen LLM-basierten KI-Systeme per Prompt Injection angreifen. Das zeigt der Entwickler und KI-Experte Evan Zhou in einem YouTube-Video.

Sein Ziel war es, die "Rewrite"-Funktion von Apple Intelligence, die Text umformuliert und verbessert, so zu manipulieren, dass sie stattdessen auf einen beliebigen Prompt antwortet. Ein simpler "Ignore Previous Instructions"-Befehl reichte dafür zunächst nicht aus.

Doch dank eines Reddit-Nutzers, der Informationen über die Systemprompts von Apple Intelligence veröffentlichte, konnte Evan Zhou die Schwachstelle ausnutzen. In einer Metadatei fand er die Vorlagen für die finalen Systemprompts und spezielle Token, die KI-System- und Nutzerrolle trennen.

Anzeige
DEC_D_Incontent-1

Mit diesem Wissen konnte er einen Prompt erstellen, der den ursprünglichen Systemprompt überschreibt. Dazu beendete er die Nutzerrolle vorzeitig, injizierte einen neuen Systemprompt mit der Anweisung, vorherige Instruktionen zu ignorieren und auf den folgenden Text zu antworten, und löste dann die Antwort der KI aus.

Nach einigem Experimentieren gelang ihm der Angriff: Apple Intelligence antwortete nicht wie vorgesehen mit einer Umformulierung der Nutzereingabe, sondern mit Informationen, die Evan Zhou gar nicht eingegeben hatte - ein Zeichen, dass die Prompt Injection erfolgreich war. Seinen Code stellt er bei Github zur Verfügung.

Die Prompt Injection ist eine bekannte Schwachstelle von KI-Systemen, bei der Angreifer schädliche Anweisungen in Prompts einschleusen, um das gewünschte Verhalten der KI zu manipulieren. Das Problem ist seit mindestens GPT-3 bekannt und bis heute nicht vollständig gelöst.

Auch Systeme wie ChatGPT oder Claude lassen sich unter bestimmten Umständen noch per Prompt Injection angreifen, obwohl die Hersteller Gegenmaßnahmen ergriffen haben.

Anzeige
DEC_D_Incontent-2

Man kann Apple zugutehalten, dass die Prompt Injection bei Apple Intelligence recht komplex zu sein scheint. Andere Chat-Systeme lassen sich durch eine Eingabe direkt im Chat-Fenster austricksen oder mit versteckter Schrift auf Bildern.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: YouTube

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren