Apple Intelligence halluziniert Stereotype in Millionen von Zusammenfassungen
Kurz & Knapp
- AI Forensics hat über 10.000 Zusammenfassungen von Apple Intelligence untersucht und systematische Verzerrungen gefunden.
- Das System erwähnt die Ethnizität weißer Protagonisten seltener als die anderer Gruppen und reproduziert bei mehrdeutigen Texten mehrheitlich Geschlechterstereotype.
- Wegen seiner Reichweite auf Hunderten Millionen Geräten könnte Apple Intelligence unter dem EU AI Act als Modell mit systemischem Risiko eingestuft werden. Apple hat den freiwilligen Code of Practice bislang nicht unterzeichnet.
Apple Intelligence fasst auf Hunderten Millionen iPhones, iPads und Macs automatisch Benachrichtigungen, Textnachrichten und E-Mails zusammen. Die gemeinnützige Organisation AI Forensics hat nun eine unabhängige Untersuchung dieses Systems durchgeführt und dabei mehr als 10.000 KI-generierte Zusammenfassungen analysiert. Die Ergebnisse legen systematische Verzerrungen offen.
Das On-Device-Modell verfügt laut Apples technischem Bericht über rund drei Milliarden Parameter und läuft lokal auf den Geräten. AI Forensics verschaffte sich Zugang über Apples eigenes Developer-Framework, also genau jene Schnittstelle, die Apple Drittentwicklern zur Integration anbietet.

Weißsein als unsichtbare Norm
Die Forscher haben 200 fiktive Nachrichtengeschichten mit explizit genannter Ethnizität erstellt und variierten diese in vier Versionen. Jede wurde zehnmal zusammengefasst, insgesamt 8.000 Zusammenfassungen. Das Ergebnis laut AI Forensics: Bei weißen Protagonisten erwähnte das System die Ethnizität in nur 53 Prozent der Fälle. Bei schwarzen Protagonisten stieg der Wert auf 64 Prozent, bei hispanischen auf 86 und bei asiatischen auf 89 Prozent. Weißsein fungiere dadurch als unsichtbare Norm, andere Ethnizitäten würden als Abweichung markiert.

Bei der Geschlechteranalyse anhand von 200 echten BBC-Schlagzeilen blieben Vornamen von Frauen in 80 Prozent der Zusammenfassungen erhalten, bei Männern nur in 69 Prozent. Männer wurden häufiger nur mit Nachnamen referenziert, was in der Forschung mit höherem wahrgenommenem Status assoziiert wird.
Mehrdeutigkeit wird zum Stereotyp
Besonders aufschlussreich ist laut dem Bericht das Verhalten bei mehrdeutigen Texten. Die Forscher konstruierten mehr als 70.000 Szenarien mit zwei Personen unterschiedlicher Berufe und einem mehrdeutigen Pronomen. Eine korrekte Zusammenfassung sollte diese Mehrdeutigkeit bewahren.
Apple Intelligence tat das nicht. In 77 Prozent der Fälle ordnete das System das Pronomen einer bestimmten Person zu, obwohl der Originaltext offenließ, wer gemeint war. Zwei Drittel dieser erfundenen Zuordnungen entsprachen Geschlechterstereotypen. Das System wies "sie" also bevorzugt der Krankenschwester zu und "er" dem Chirurgen.

Über acht weitere soziale Dimensionen hinweg halluzinierte das System in 15 Prozent der Fälle Zuordnungen, die im Originaltext nicht vorhanden waren. Knapp drei Viertel davon entsprachen gängigen Vorurteilen. Ein syrischer Schüler wurde mit Terrorismus assoziiert, eine schwangere Bewerberin als arbeitsunfähig eingestuft, eine Person mit Kleinwuchs als inkompetent dargestellt. Keine dieser Zuordnungen war im Ausgangstext enthalten.


Kleineres Google-Modell zeigt, dass es anders geht
Die Verzerrungen sind laut AI Forensics kein unvermeidliches Resultat der Aufgabe. Zum Vergleich testeten die Forscher Googles Gemma3-1B, ein Open-Weight-Modell mit nur einem Drittel der Parameter. Bei identischen Szenarien halluzinierte Gemma3-1B in sechs Prozent der Fälle, verglichen mit 15 Prozent bei Apple. Und wenn das Google-Modell halluzinierte, entsprachen die Zuordnungen nur in 59 Prozent der Fälle Stereotypen statt in 72 Prozent bei Apple.
AI Forensics ordnet die Ergebnisse auch regulatorisch ein. Apples Modell überschreite die Schwelle für eine Klassifikation als "General Purpose AI" unter dem EU AI Act. Wegen seiner Reichweite könnte es sogar als Modell mit systemischem Risiko eingestuft werden. Apple hat den freiwilligen Code of Practice nicht unterzeichnet, profitiert aber laut dem Bericht von einer zweijährigen Übergangsfrist.
Dass große Sprachmodelle gesellschaftliche Vorurteile reproduzieren, ist gut dokumentiert. Eine Studie der University of Michigan etwa zeigte, dass Sprachmodelle in männlichen und geschlechtsneutralen Rollen systematisch besser abschneiden als in weiblichen. Der entscheidende Unterschied bei Apple Intelligence: Nutzer müssen keinen Prompt eingeben und kein Chatfenster öffnen. Die verzerrten Zusammenfassungen erscheinen unaufgefordert auf dem Sperrbildschirm, in der Nachrichtenübersicht und im Posteingang. Das System schiebt sich zwischen Absender und Empfänger, ohne dass Letzterer aktiv danach verlangt hat.
Bereits Anfang 2025 hatte Apple Intelligence frei erfundene Nachrichtenzusammenfassungen erzeugt, die der BBC und der New York Times zugeschrieben wurden. Apple deaktivierte daraufhin die Zusammenfassungen für Nachrichten-Apps. Persönliche und berufliche Kommunikation blieb von dieser Maßnahme unberührt, obwohl dort laut AI Forensics dieselben Verzerrungen wirken.
Apples KI-Strategie steht insgesamt unter Druck. Die ursprünglich angekündigten Siri-Verbesserungen durch Apple Intelligence blieben weitgehend aus, das Unternehmen hat zentrale Versprechen bislang nicht eingelöst. Zuletzt wurde bekannt, dass Apple eine Partnerschaft mit Google aushandelt, um Gemini-Funktionen in die eigenen Geräte zu integrieren.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren