Inhalt
summary Zusammenfassung

Einem Entwickler ist es gelungen, Apple Intelligence per Prompt Injection zu manipulieren. Er konnte die KI dazu bringen, Anweisungen zu ignorieren und auf beliebige Prompts zu antworten.

Anzeige

Apples hauseigene KI namens Apple Intelligence, die mit macOS 15.1 Beta 1 für Entwickler verfügbar ist, lässt sich wie alle anderen LLM-basierten KI-Systeme per Prompt Injection angreifen. Das zeigt der Entwickler und KI-Experte Evan Zhou in einem YouTube-Video.

Sein Ziel war es, die "Rewrite"-Funktion von Apple Intelligence, die Text umformuliert und verbessert, so zu manipulieren, dass sie stattdessen auf einen beliebigen Prompt antwortet. Ein simpler "Ignore Previous Instructions"-Befehl reichte dafür zunächst nicht aus.

Doch dank eines Reddit-Nutzers, der Informationen über die Systemprompts von Apple Intelligence veröffentlichte, konnte Evan Zhou die Schwachstelle ausnutzen. In einer Metadatei fand er die Vorlagen für die finalen Systemprompts und spezielle Token, die KI-System- und Nutzerrolle trennen.

Anzeige
Anzeige

Mit diesem Wissen konnte er einen Prompt erstellen, der den ursprünglichen Systemprompt überschreibt. Dazu beendete er die Nutzerrolle vorzeitig, injizierte einen neuen Systemprompt mit der Anweisung, vorherige Instruktionen zu ignorieren und auf den folgenden Text zu antworten, und löste dann die Antwort der KI aus.

Nach einigem Experimentieren gelang ihm der Angriff: Apple Intelligence antwortete nicht wie vorgesehen mit einer Umformulierung der Nutzereingabe, sondern mit Informationen, die Evan Zhou gar nicht eingegeben hatte - ein Zeichen, dass die Prompt Injection erfolgreich war. Seinen Code stellt er bei Github zur Verfügung.

Die Prompt Injection ist eine bekannte Schwachstelle von KI-Systemen, bei der Angreifer schädliche Anweisungen in Prompts einschleusen, um das gewünschte Verhalten der KI zu manipulieren. Das Problem ist seit mindestens GPT-3 bekannt und bis heute nicht vollständig gelöst.

Auch Systeme wie ChatGPT oder Claude lassen sich unter bestimmten Umständen noch per Prompt Injection angreifen, obwohl die Hersteller Gegenmaßnahmen ergriffen haben.

Man kann Apple zugutehalten, dass die Prompt Injection bei Apple Intelligence recht komplex zu sein scheint. Andere Chat-Systeme lassen sich durch eine Eingabe direkt im Chat-Fenster austricksen oder mit versteckter Schrift auf Bildern.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Dem Entwickler Evan Zhou ist es gelungen, Apples hauseigene KI "Apple Intelligence" per Prompt Injection zu manipulieren und dazu zu bringen, Anweisungen zu ignorieren und auf beliebige Prompts zu antworten.
  • Zhou nutzte Informationen über die Systemprompts und speziellen Token von Apple Intelligence, die ein Reddit-Nutzer veröffentlicht hatte, um einen Prompt zu erstellen, der den ursprünglichen Systemprompt überschreibt und die KI-Antwort gezielt auslöst.
  • Die Prompt Injection ist eine bekannte Schwachstelle von KI-Systemen, bei der Angreifer schädliche Anweisungen einschleusen, um das Verhalten der KI zu manipulieren. Auch wenn es bei Apple Intelligence schwieriger ist als bei anderen Systemen, zeigt der Angriff, dass das Problem bisher nicht vollständig gelöst ist.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!