Anzeige
Skip to content

Gemini-Modelle dominieren neue KI-Ranglisten für strategische Gesellschaftsspiele

Googles Gemini-Modelle schneiden in Gesellschaftsspielen am besten ab. Google Deepmind hat zusammen mit Kaggle die "Game Arena" um zwei neue Spiele erweitert: Werwolf und Poker. Die Plattform testet KI-Modelle in strategischen Spielen. Schach misst logisches Denken, Werwolf prüft soziale Fähigkeiten wie Kommunikation und das Erkennen von Täuschung, Poker testet den Umgang mit Risiko und unvollständigen Informationen.

Die Spiele lieferten objektive Messungen für Fähigkeiten wie Planung und Entscheidungen unter Unsicherheit. Gemini 3 Pro und Gemini 3 Flash belegen derzeit die ersten Plätze in allen Ranglisten. Die Werwolf-Benchmark dient auch der Sicherheitsforschung: Sie testet, ob Modelle Manipulation erkennen können, ohne reale Risiken einzugehen. Laut Google-Deepmind-CEO Demis Hassabis benötige die KI-Branche härtere Tests für die neuesten Modelle.

Anzeige
DEC_D_Incontent-1

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.