Gemini-Modelle dominieren neue KI-Ranglisten für strategische Gesellschaftsspiele
Googles Gemini-Modelle schneiden in Gesellschaftsspielen am besten ab. Google Deepmind hat zusammen mit Kaggle die "Game Arena" um zwei neue Spiele erweitert: Werwolf und Poker. Die Plattform testet KI-Modelle in strategischen Spielen. Schach misst logisches Denken, Werwolf prüft soziale Fähigkeiten wie Kommunikation und das Erkennen von Täuschung, Poker testet den Umgang mit Risiko und unvollständigen Informationen.
Die Spiele lieferten objektive Messungen für Fähigkeiten wie Planung und Entscheidungen unter Unsicherheit. Gemini 3 Pro und Gemini 3 Flash belegen derzeit die ersten Plätze in allen Ranglisten. Die Werwolf-Benchmark dient auch der Sicherheitsforschung: Sie testet, ob Modelle Manipulation erkennen können, ohne reale Risiken einzugehen. Laut Google-Deepmind-CEO Demis Hassabis benötige die KI-Branche härtere Tests für die neuesten Modelle.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren