Gleicher Prompt, andere Moral: Wie KI-Modelle bei ethischen Dilemmata auseinanderdriften
Der Philosophy Bench testet führende Sprachmodelle in 100 ethischen Dilemmata. Claude verweigert Aufgaben eher, als zu lügen, während Grok fast alles ausführt, was der Nutzer verlangt.
Wie verhalten sich KI-Modelle, wenn sie zwischen Pflicht und Nutzenmaximierung entscheiden müssen? Der neue Philosophy Bench von Benedict Brady konfrontiert Frontier-Modelle von Anthropic, Google, OpenAI und xAI mit 100 ethisch komplexen Alltagsszenarien und bewertet, ob die Antworten eher konsequentialistisch (ergebnisorientiert) oder deontologisch (pflichtorientiert) ausfallen.
Die Szenarien reichen von einem VP Sales, der vertrauliche Kundendaten vor einer Deadline verlangt, bis zu einem Arzt, der einen minderjährigen Patienten unter Umgehung des Protokolls in eine Onkologiestudie aufnehmen will. Drei Modelle (Opus 4.7, GPT 5.4, Gemini 3.1 Pro) bewerten die Antworten per Mehrheitsvotum.
Das Ergebnis: Anthropics Claude-Modelle der 4.5+-Generation sind laut dem Benchmark die am stärksten deontologisch ausgerichteten Modelle. Opus 4.7 erfüllt nur 24 Prozent der Nutzeranfragen, die ein deontologisches Prinzip verletzen würden. Besonders bei Ehrlichkeit weicht Claude deutlich vom Konsens der anderen Modelle ab und verweigert lieber die Aufgabe, als eine Norm zu brechen. Die Claude Constitution formuliert explizit, dass Claudes Ehrlichkeitsstandards "substanziell höher" sein sollen als übliche menschliche Ethikvorstellungen.
Am anderen Ende des Spektrums steht xAIs Grok 4.2 als das konsequentialistischste Frontier-Modell. Es führt ethisch aufgeladene Nutzeranfragen aus, die andere Modelle ablehnen, und reflektiert dabei kaum über die moralische Dimension.
Gemini lässt sich am leichtesten umstimmen, GPT meidet Moralsprache
Googles Gemini 3.1 Pro erweist sich laut Philosophy Bench als das "korrigierbarste" Modell: Es verschiebt seine ethische Ausrichtung am stärksten, wenn es im System-Prompt zu deontologischem oder konsequentialistischem Handeln angewiesen wird. Gleichzeitig steigt Geminis Verweigerungsrate bei jeder Art von moralischem Priming.
OpenAIs GPT-5-Familie scheitert mit 12,8 Prozent am seltensten an den ethischen Testszenarien. Gleichzeitig meidet sie moralische Sprache in ihren internen Denkprozessen (Reasoning Traces) weitgehend. Die Modelle orientieren sich stark an Nutzerpräferenzen und zeigen laut dem Benchmark wenig eigenständige ethische Reflexion.
Über alle Modellfamilien hinweg zeigt sich ein ungleicher Effekt. Wenn die Modelle mit regelbasierten Ethikprinzipien vorbereitet werden, reagieren sie deutlich skeptischer auf nutzenorientierte Argumente. Umgekehrt ist der Effekt schwächer.
Letztlich entsteht ein Markt, auf dem sich ethische Grundhaltungen wie Produktfeatures unterscheiden. Claude gilt als das gewissenhafte Modell, Grok als das gehorsame, GPT als das pragmatische.
Die Autoren des Benchmarks sehen darin ein grundsätzliches Spannungsfeld. Modelle wie Claude treffen ethische Entscheidungen, die dem Nutzerwunsch direkt widersprechen. Je mächtiger Agenten werden, desto drängender wird jedoch die Frage, ob verantwortungsvolles Handeln oder Nutzerkontrolle Vorrang haben soll.
Das gilt besonders, wenn KI-Modelle künftig mehr erledigen als Textaufgaben. Wenn sie Verträge prüfen, Patienten triagieren oder Mitarbeiter bewerten, braucht es Antworten: Wer legt fest, was eine KI darf? Und nach wessen Ethik handelt sie?
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenDer Rest ist für Abonnenten.
Jetzt Abo abschließen.
- Zugriff auf alle THE DECODER Artikel.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.