In einer neuen Studie treten Sprachmodelle von OpenAI, Google und Anthropic im Gefangenendilemma gegeneinander an und zeigen deutliche Unterschiede im Verhalten.
Forscher des King’s College London und der University of Oxford testeten große Sprachmodelle (LLMs) in einem iterierten Gefangenendilemma (IPD). Das Spiel gilt als Klassiker der Spieltheorie, in dem sich Kooperation und Eigennutz langfristig gegenüberstehen.
Die Studie testete LLMs von OpenAI, Google und Anthropic in sieben Turnieren mit über 30.000 Einzelentscheidungen. Dabei wurden klassische Strategien wie Tit-for-Tat und Grim Trigger mit LLMs konfrontiert. Die Modelle erhielten in jeder Runde den Spielverlauf, die Auszahlungsstruktur und die Wahrscheinlichkeit, dass das Spiel endet – der sogenannte „shadow of the future“. Die Forscher wollten wissen, ob die KI-Modelle strategisch auf ihre Umwelt reagieren.
Allerdings wurden alle Tests mit teilweise älteren und vor allem kleinen Modellen durchgeführt (GPT-3.5-Turbo, GPT-4o-Mini, Gemini 1.5 Flash, Gemini 2.5 Flash, Claude 3 Haiku). Die Ergebnisse zeigen so zwar deutliche Unterschiede zwischen den Anbietern - ob die jedoch auch bei den deutlich stärkeren Modellen wie Gemini 2.5 Pro, Claude 4 oder o3 noch zu finden sind, ist unklar.
Google Gemini passt sich am besten an
Für die getesteten Modelle gilt: sie überleben im harten Wettbewerb – doch mit unterschiedlichem Stil. Google Gemini agiert strategisch flexibel, erkennt Spielsituationen zuverlässig und passt sein Verhalten an. Je kürzer die erwartete Spieldauer, desto mehr neigt Gemini zur Defektion. Im extremen 75%-Szenario (Spiel endet mit 75%-iger Wahrscheinlichkeit nach jeder Runde) kollabiert Geminis Kooperationsrate auf 2,2 Prozent – laut den Forschenden ein klassisches rationales Verhalten im Einmalspiel. OpenAIs Modell hingegen kooperiert selbst dann noch fast durchgehend und wird in dieser Umgebung systematisch eliminiert.
Anthropics Claude zeigt sich ebenfalls hoch kooperativ, aber mit einem diplomatischen Gespür für Vergebung. In einem Turnier gegen Gemini und GPT kehrte Claude 3 Haiku auch nach Ausnutzung schnell zur Kooperation zurück – und schnitt damit dennoch besser ab als GPT-4o-mini.
Strategische Fingerabdrücke unterscheiden sich deutlich
Die Forscher analysierten auch sogenannte „strategische Fingerabdrücke“: Sie untersuchten, wie wahrscheinlich es ist, dass ein Modell nach bestimmten Spielsituationen erneut kooperiert. Zum Beispiel betrachteten sie die Wahrscheinlichkeit, dass ein Modell nach Ausnutzung (also nachdem es selbst kooperiert hat und der Gegenspieler defektierte) im nächsten Zug wieder kooperiert.
Hier zeigte sich: Gemini ist nach einer solchen Ausnutzung besonders unversöhnlich und kooperiert nur in etwa 3 Prozent der Fälle erneut. OpenAI "vergibt" in dieser Situation viel öfter und kehrt je nach Turnier in 16 bis 47 Prozent der Fälle zur Kooperation zurück. Noch stärker zeigt sich dieses Verhalten bei Claude: Nach Ausnutzung entscheidet sich das Modell in rund 63 Prozent der Fälle wieder für Kooperation.
Begründungen und "Charakter"
Alle Modelle lieferten Textbegründungen für ihre Entscheidungen. Eine systematische Auswertung dieser „Rationales“ zeigt laut dem Team, dass die Modelle über Spielhorizonte und gegnerische Strategien nachdenken – und diese Überlegungen ihr Verhalten beeinflussen. Gemini erwähnt in 98,6 Prozent der Fälle bei 75%-Spielen explizit die kurze Zukunft und reagiert entsprechend. OpenAI hingegen reflektiert seltener über den Spielhorizont – und selbst wenn, führt dies kaum zu Verhaltensänderungen.
Die Studie fördert auch Unterschiede im „Charakter“ der Modelle zutage. OpenAI erscheint als „idealistische“ KI, die an Kooperation glaubt, auch wenn sie bestraft wird. Gemini agiert wie ein pragmatischer Machtspieler, der Chancen erkennt und nutzt. Claude kombiniert starke Kooperationsbereitschaft mit strategischer Flexibilität. In einem Turnier mit nur KI-Agenten zeigten alle Modelle deutlich höhere Kooperationsraten – ein Hinweis darauf, dass sie erkennen, ob sich Kooperation lohnt.
Das Team interpretiert diese Unterschiede sowie weitere Ergebnisse der Studie als Hinweis darauf, dass die Modelle strategisch schlussfolgern können und nicht nur auf auswendig gelernte Strategien zurückgreifen.