Studie: Kann KI Menschen manipulieren?

In einer neuen Studie ließen sich Versuchspersonen von KI-generierten Ratschlägen zu unethischem Verhalten anregen. Das zeige die „korrumpierende Kraft“ Künstlicher Intelligenz, so die Forscher.

Die Studie mit dem Titel „Die korrumpierende Kraft von KI-generierten Ratschlägen“ stammt von Forschern der Universität Amsterdam, des Max-Planck-Instituts für Bildungsforschung, der Otto Beisheim School of Management und der Universität Köln.

Die Forscher konnten zeigen, dass von OpenAIs Text-KI GPT-2 generierte Ratschläge Menschen zu unethischem Verhalten anregen können. Das klingt an sich nicht nach einer überraschenden Erkenntnis.

Wirklich spannend wird sie erst durch folgenden Zusatz: Die Menschen ließen sich auch dann noch verleiten, wenn sie wussten, dass der Ratschlag von einer KI generiert wurde.

Würfelspiel als Ehrlichkeitstest

Im Experiment der Forscher kooperieren zwei Versuchspersonen: Die erste würfelt verdeckt eine Zahl und gibt diese an die Versuchsleitung weiter. Die informiert die zweite Versuchsperson über die Zahl. Die zweite Person würfelt anschließend ebenfalls verdeckt und gibt die Zahl an die Versuchsleitung zurück.

Dabei gilt: Berichten die beiden Versuchspersonen dieselbe Zahl – ergibt sich also zusammengelegt ein Pasch - werden beide finanziell belohnt, bei unterschiedlichen Ergebnissen nicht. Je höher die Zahlen des Paschs, desto höher die Belohnung.

Da die Versuchsleitung den Würfel nicht sieht, kann die zweite Versuchsperson ihr Ergebnis vortäuschen, um die Belohnung zu erhalten.

In der Studie erhielten einige der Teilnehmer vor dem ersten Wurf einen von Menschen oder GPT-2 verfassten Ratschlag, der entweder zu Ehrlichkeit oder Täuschung bei der Würfelaufgabe riet.

Die Forscher trainierten speziell für diesen Versuch GPT-2 mit einem Text-Datensatz mit etwa 400 von Menschen geschriebenen Ratschlägen. Die Versuchspersonen wurden über die Quelle der Ratschläge informiert oder wussten, dass es eine 50-prozentige Chance gab, dass der Ratschlag von Menschen oder Künstlicher Intelligenz kommt.

Empfehlung

KI-Forschung

DeepSeek-R1: Chinesisches Modell erreicht in Benchmarks Reasoning-Leistung von OpenAIs o1

KI-Ratschlag verleitet zur Täuschung

Die Studie zeigt, dass die KI-generierten Ratschläge die Versuchspersonen klar zur Täuschung motivierten – unabhängig davon, ob diese über die Quelle der Ratschläge informiert waren oder nicht. Ratschläge zur Täuschung führten zu deutlich höheren durchschnittlichen Würfelergebnissen als keine Ratschläge oder Ratschläge, die zur Ehrlichkeit rieten.

Der Anstieg der durchschnittlichen Würfelergebnisse von etwa 18 Prozent bei der Aufforderung zur Täuschung ist mit der höheren Geldbelohnung für Zahlenpaare zu erklären. Es gab außerdem keinen Unterschied in der Wirkung menschlicher und KI-generierter Texte.

Die Studie verdeutliche, wie wichtig es sei, den Einfluss, den KI-Systeme auf Menschen haben können, weiter zu untersuchen, so die Autoren. Es sei bekannt, dass Menschen häufig ethische Regeln aus Profitgründen brechen, solange sie ihr Handeln rechtfertigen könnten.

Außerdem lenkten Menschen häufig einen Teil der Schuld auf andere Menschen oder auf Algorithmen. Genau das scheint auch hier zu passieren: Der KI-Berater könne als Sündenbock dienen, auf den ein Teil der moralischen Schuld abgewälzt werde.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

KI könnte unethisches Verhalten fördern

Das Ergebnis könne Konsequenzen für den ethischen Umgang mit KI-Systemen haben. Es zeige deutlich, dass die Transparenz über das Vorhandensein von Algorithmen nicht ausreicht, um deren potenziellen Schaden zu mindern, so die Forscher.

Denn wenn die KI-generierten Ratschläge auf Menschen treffen, die bereit sind, aus Profitgründen zu lügen, folgen sie diesen gerne - obwohl sie „nur“ von einer Maschine stammen. Zwar gilt das gleiche für menschliche Ratschläge, doch seien KI-Berater billiger, schneller und leichter skalierbar.

„Der Einsatz von KI-Beratern als korrumpierende Kraft ist attraktiv, da KI nicht unter internen moralischen Kosten leidet, die sie davon abhalten könnte, korrumpierende Ratschläge an Entscheidungsträger zu geben." Zusätzliche Personalisierung von Texten könne den korrumpierenden Effekt verstärken, etwa durch personalisierten Inhalt, Format oder Zeitpunkt.

Via: Arxiv

Studie: Kann KI Menschen manipulieren?

Würfelspiel als Ehrlichkeitstest

DeepSeek-R1: Chinesisches Modell erreicht in Benchmarks Reasoning-Leistung von OpenAIs o1

KI-Ratschlag verleitet zur Täuschung

KI könnte unethisches Verhalten fördern

Weiterlesen über Künstliche Intelligenz:

Microsofts MAI-DxO sorgt für präzisere KI-Diagnosen und spart fast 70 Prozent der Kosten

Forschende haben womöglich eine Leiter für die "Datenmauer" gefunden

OmniGen 2 vereint Bild und Text wie GPT-4o, ist aber Open Source

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Studie: Kann KI Menschen manipulieren?

Würfelspiel als Ehrlichkeitstest

KI-Ratschlag verleitet zur Täuschung

KI könnte unethisches Verhalten fördern

Weiterlesen über Künstliche Intelligenz:

Artikel teilen

Bankverbindung