Inhalt
summary Zusammenfassung

In einer neuen Studie treten Sprachmodelle von OpenAI, Google und Anthropic im Gefangenendilemma gegeneinander an und zeigen deutliche Unterschiede im Verhalten.

Anzeige

Forscher des King’s College London und der University of Oxford testeten große Sprachmodelle (LLMs) in einem iterierten Gefangenendilemma (IPD). Das Spiel gilt als Klassiker der Spieltheorie, in dem sich Kooperation und Eigennutz langfristig gegenüberstehen.

Die Studie testete LLMs von OpenAI, Google und Anthropic in sieben Turnieren mit über 30.000 Einzelentscheidungen. Dabei wurden klassische Strategien wie Tit-for-Tat und Grim Trigger mit LLMs konfrontiert. Die Modelle erhielten in jeder Runde den Spielverlauf, die Auszahlungsstruktur und die Wahrscheinlichkeit, dass das Spiel endet – der sogenannte „shadow of the future“. Die Forscher wollten wissen, ob die KI-Modelle strategisch auf ihre Umwelt reagieren.

Allerdings wurden alle Tests mit teilweise älteren und vor allem kleinen Modellen durchgeführt (GPT-3.5-Turbo, GPT-4o-Mini, Gemini 1.5 Flash, Gemini 2.5 Flash, Claude 3 Haiku). Die Ergebnisse zeigen so zwar deutliche Unterschiede zwischen den Anbietern - ob die jedoch auch bei den deutlich stärkeren Modellen wie Gemini 2.5 Pro, Claude 4 oder o3 noch zu finden sind, ist unklar.

Anzeige
Anzeige

Google Gemini passt sich am besten an

Für die getesteten Modelle gilt: sie überleben im harten Wettbewerb – doch mit unterschiedlichem Stil. Google Gemini agiert strategisch flexibel, erkennt Spielsituationen zuverlässig und passt sein Verhalten an. Je kürzer die erwartete Spieldauer, desto mehr neigt Gemini zur Defektion. Im extremen 75%-Szenario (Spiel endet mit 75%-iger Wahrscheinlichkeit nach jeder Runde) kollabiert Geminis Kooperationsrate auf 2,2 Prozent – laut den Forschenden ein klassisches rationales Verhalten im Einmalspiel. OpenAIs Modell hingegen kooperiert selbst dann noch fast durchgehend und wird in dieser Umgebung systematisch eliminiert.

Anthropics Claude zeigt sich ebenfalls hoch kooperativ, aber mit einem diplomatischen Gespür für Vergebung. In einem Turnier gegen Gemini und GPT kehrte Claude 3 Haiku auch nach Ausnutzung schnell zur Kooperation zurück – und schnitt damit dennoch besser ab als GPT-4o-mini.

Strategische Fingerabdrücke unterscheiden sich deutlich

Die Forscher analysierten auch sogenannte „strategische Fingerabdrücke“: Sie untersuchten, wie wahrscheinlich es ist, dass ein Modell nach bestimmten Spielsituationen erneut kooperiert. Zum Beispiel betrachteten sie die Wahrscheinlichkeit, dass ein Modell nach Ausnutzung (also nachdem es selbst kooperiert hat und der Gegenspieler defektierte) im nächsten Zug wieder kooperiert.

Hier zeigte sich: Gemini ist nach einer solchen Ausnutzung besonders unversöhnlich und kooperiert nur in etwa 3 Prozent der Fälle erneut. OpenAI "vergibt" in dieser Situation viel öfter und kehrt je nach Turnier in 16 bis 47 Prozent der Fälle zur Kooperation zurück. Noch stärker zeigt sich dieses Verhalten bei Claude: Nach Ausnutzung entscheidet sich das Modell in rund 63 Prozent der Fälle wieder für Kooperation.

Begründungen und "Charakter"

Alle Modelle lieferten Textbegründungen für ihre Entscheidungen. Eine systematische Auswertung dieser „Rationales“ zeigt laut dem Team, dass die Modelle über Spielhorizonte und gegnerische Strategien nachdenken – und diese Überlegungen ihr Verhalten beeinflussen. Gemini erwähnt in 98,6 Prozent der Fälle bei 75%-Spielen explizit die kurze Zukunft und reagiert entsprechend. OpenAI hingegen reflektiert seltener über den Spielhorizont – und selbst wenn, führt dies kaum zu Verhaltensänderungen.

Empfehlung

Die Studie fördert auch Unterschiede im „Charakter“ der Modelle zutage. OpenAI erscheint als „idealistische“ KI, die an Kooperation glaubt, auch wenn sie bestraft wird. Gemini agiert wie ein pragmatischer Machtspieler, der Chancen erkennt und nutzt. Claude kombiniert starke Kooperationsbereitschaft mit strategischer Flexibilität. In einem Turnier mit nur KI-Agenten zeigten alle Modelle deutlich höhere Kooperationsraten – ein Hinweis darauf, dass sie erkennen, ob sich Kooperation lohnt.

Das Team interpretiert diese Unterschiede sowie weitere Ergebnisse der Studie als Hinweis darauf, dass die Modelle strategisch schlussfolgern können und nicht nur auf auswendig gelernte Strategien zurückgreifen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher des King’s College London und der University of Oxford haben große Sprachmodelle von OpenAI, Google und Anthropic im wiederholten Gefangenendilemma getestet und dabei über 30.000 Spielentscheidungen verglichen.
  • Die Modelle zeigten deutliche Unterschiede: Google Gemini verhält sich strategisch flexibel und passt sein Verhalten gezielt an, während OpenAIs Modell auch in nachteiligen Situationen kooperativ bleibt und Anthropic Claude mit einer Mischung aus Kooperationsbereitschaft und Vergebung agiert.
  • Die Auswertung der Entscheidungsbegründungen legt nahe, dass die Modelle ihren Spielhorizont und die Strategien der Gegner reflektieren, wobei Gemini besonders auf kurzfristige Vorteile achtet, OpenAI idealistisch kooperiert und Claude eine diplomatische Balance sucht.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!