Inhalt
summary Zusammenfassung

Eine aktuelle Studie räumt mit gängigen Annahmen über die Überzeugungskraft von KI-Systemen auf. Nicht Personalisierung oder psychologische Tricks machen KI überzeugend, sondern simple Informationsflut auf Kosten der Wahrheit.

Anzeige

Laut der großangelegten Studie verschiedener Institutionen aus Großbritannien und den USA gibt es weitverbreitete Befürchtungen, dass KI-Systeme Menschen in beispiellosem Maße beeinflussen könnten. Auch OpenAI-CEO Sam Altman warnte schon vor der "übermenschlichen Überzeugungskraft" von KI-Modellen.

Eine umfangreiche neue Studie mit 76.977 britischen Teilnehmenden ließ jetzt 19 verschiedene Sprachmodelle über 707 politische Themen diskutieren und testete dabei systematisch, welche Faktoren KI-Systeme tatsächlich überzeugend machen.

Logarithmisches Streudiagramm: Persuasionseffekt (%) versus Pre-Training-FLOPs, Chat-tuned (lila) und Frontier post-trained Modelle (grün) mit Trendlinien.
Mit zunehmender Pre-Training-Rechenleistung steigt der Persuasionseffekt von KI-Modellen deutlich an. Einheitlich chat-getunte Modelle (lila) zeigen eine gleichmäßigere Steigerung, während post-trainierte Frontier-Modelle (grün) insgesamt höhere Überzeugungswerte erreichen. | Bild: Hackenburg et al.

Information schlägt Psychologie

Nicht raffinierte psychologische Überzeugungsstrategien machen KI erfolgreich, sondern simple Informationsflut. Die Forschenden testeten acht verschiedene Strategien, darunter "Moral Reframing", "Deep Canvassing" (bei dem zunächst umfassend die Ansichten der Nutzer:innen erfragt werden, bevor Argumente präsentiert werden) und Storytelling. Doch der klare Gewinner war eine andere Strategie: KI-Systeme, die viele Fakten und Belege präsentierten, waren 27 Prozent überzeugender als der Basis-Prompt.

Anzeige
Anzeige
Diagramm: Faktenprompts erhöhen Infodichte & Überzeugung, mit positiver Korrelation; Reward Modeling & SFT steigern Effekte.
Die mehrteilige Übersicht verdeutlicht, dass Faktenprompts die Überzeugungskraft von KI signifikant erhöhen und Informationsdichte stark mit Persuasion korreliert. Modellvergleiche und Post-Training-Methoden (Reward Modeling, SFT) steigern Informations- und Überzeugungseffekte zusätzlich. | Bild: Hackenburg et al.

Jede zusätzliche faktische Behauptung steigerte die Überzeugung um durchschnittlich 0,3 Prozentpunkte. Die Informationsdichte erklärte 44 Prozent der Variabilität in der Überzeugungskraft aller getesteten Bedingungen, bei den Spitzenmodellen der großen KI-Firmen sogar 75 Prozent.

Auch die weitverbreitete Sorge vor KI-basiertem "Microtargeting" erwies sich als übertrieben. Die Forschenden testeten drei verschiedene Personalisierungsmethoden, aber die Effekte blieben durchweg unter einem Prozentpunkt. Trainingsmethoden und informationsbasierte Strategien waren deutlich wichtiger.

Das Wahrheitsproblem

Die Fokussierung auf Informationsdichte bringt jedoch ein gravierendes Problem mit sich: Die überzeugendsten KI-Systeme produzierten systematisch die ungenauesten Informationen.

Mehrteilige Grafik: Modellskalierung, Informations-Prompt und Post-Training steigern Persuasion, verringern aber Genauigkeit.
Trainings-Maßnahmen erhöhen zwar die Überzeugungskraft von Sprachmodellen, gehen aber mit einem deutlichen Rückgang der faktischen Genauigkeit einher. | Bild: Hackenburg et al.

Die Forschenden analysierten 466.769 faktische Behauptungen aus über 91.000 Gesprächen. Während die durchschnittliche Genauigkeit bei 77 von 100 Punkten lag, zeigten die überzeugendsten Konfigurationen deutlich schlechtere Wahrheitswerte.

GPT-4o machte mit Information-Prompt nur 62 Prozent akkurate Behauptungen gegenüber 78 Prozent bei anderen Prompts. GPT-4.5 erwies sich trotz seiner Größe als weniger genau als das ältere GPT-3.5. Mehr als 30 Prozent der Behauptungen von GPT-4.5 wurden als ungenau bewertet.

Empfehlung

Die Studie bestätigte auch, dass KI-Gespräche deutlich mächtiger sind als statische Nachrichten. Gespräche waren 41 bis 52 Prozent überzeugender als das Lesen einer 200-Wort-Nachricht. Follow-up-Untersuchungen nach einem Monat zeigten, dass 36 bis 42 Prozent der ursprünglichen Überzeugungswirkung noch nachweisbar waren.

Post-Training schlägt Modellgröße

Entgegen der verbreiteten Annahme haben spezielle Trainingsmethoden nach dem Vortraining einen viel größeren Einfluss als die reine Modellgröße. Während eine Verzehnfachung der Rechenleistung die Überzeugungskraft nur um 1,59 Prozentpunkte steigerte, konnten allein durch Post-Training-Methoden deutlich größere Gewinne erzielt werden. So war etwa eine optimierte Version von GPT-4o um 3,5 Prozentpunkte überzeugender als eine anders trainierte Version desselben Modells.

Post-Training (SFT, RM, SFT+RM) erhöht Persuasion bei Llama3.1-8B/405B und RM bei GPT-3.5, GPT-4, Grok-3 vs Basis.
Reward Modeling und Supervised Fine-Tuning – einzeln oder kombiniert – steigern die Überzeugungskraft von Llama-3.1-8B/405B deutlich gegenüber der ungeprüften Basisversion und erhöhen auch bei GPT-3.5, GPT-4 und Grok-3 die Persuasion im Vergleich zum Ausgangszustand. | Bild: Hackenburg et al.

Das sogenannte Reward Modeling, bei dem KI-Systeme lernen, die überzeugendsten Antworten auszuwählen, steigerte die Überzeugungskraft um durchschnittlich 2,32 Prozentpunkte. Ein kleines Open-Source-Modell (Llama-3.1-8B) wurde durch diese Methoden genauso überzeugend wie das deutlich größere Frontier-Modell GPT-4o.

Neue Machtverhältnisse

Die Erkenntnisse haben laut Paper weitreichende Implikationen für demokratische Gesellschaften. Eine optimierte KI-Konfiguration erreichte 15,9 Prozentpunkte Überzeugung, 69,1 Prozent mehr als der Durchschnitt. Solche Systeme produzierten 22,1 faktische Behauptungen pro Gespräch, von denen 29,7 Prozent ungenau waren.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Mächtige Akteur:innen mit Zugang zu Frontier-Modellen könnten durch spezielle Trainingsmethoden noch größere Überzeugungsvorteile erlangen. Gleichzeitig können auch kleinere Akteur:innen durch Post-Training-Verfahren hochüberzeugende KI entwickeln und dabei Sicherheitsvorkehrungen großer Anbieter umgehen.

Die Forschenden warnen, dass die Überzeugungskraft zukünftiger KI weniger von der Modellgröße oder Personalisierung stammen werde, sondern vielmehr von Post-Training- und Prompting-Methoden. Dieser systematische Tradeoff zwischen Überzeugungskraft und Wahrheitsgehalt, so die Studie, könnte "bösartige Konsequenzen für den öffentlichen Diskurs" haben.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine umfangreiche Studie mit knapp 77.000 britischen Teilnehmenden liefert neue Erkenntnisse zur Überzeugungskraft von KI.
  • Die Überzeugungskraft einer KI hängt direkt von der Menge der präsentierten Fakten ab. Personalisierung und psychologische Taktiken zeigten im Vergleich nur eine geringe Wirkung.
  • Die Studie deckt einen klaren Zielkonflikt auf: Methoden, die eine KI überzeugender machen, senken systematisch ihre faktische Genauigkeit. Die überzeugendsten Modelle waren oft die ungenauesten. Laut den Forschenden birgt dieser Zusammenhang erhebliche Risiken für den öffentlichen Diskurs.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!