Inhalt
summary Zusammenfassung

Forscherinnen und Forscher haben die Denkfähigkeiten führender KI-Modelle anhand eines Videospiels getestet, in dem es darum geht, Gerichtsverfahren zu gewinnen. Die Ergebnisse zeigen interessante Unterschiede in Leistung und Kosteneffizienz.

Anzeige

Ein Forschungsteam des Hao AI Lab an der University of California San Diego hat führende KI-Modelle einer ungewöhnlichen Herausforderung gestellt: Sie mussten sich im Titel "Phoenix Wright: Ace Attorney" beweisen.

Die Inspiration dafür kam nach eigener Aussage von KI-Pionier Ilya Sutskever, der einst die Fähigkeit zur Vorhersage des nächsten Wortes mit dem Verständnis einer Kriminalgeschichte verglich. OpenAI-Mitgründer und ehemaliger Chefwissenschaftler Sutskever hat sich kürzlich für sein geheimnisvolles KI-Start-up eine weitere Milliardenfinanzierung gesichert.

"Ace Attorney" eigne sich laut dem Hao AI Lab besonders gut für diesen Test, da es von den Spieler:innen verlangt, Beweise zu sammeln, Widersprüche aufzudecken und die Wahrheit hinter Lügen zu enthüllen. Die KI-Modelle mussten dabei in Kreuzverhören Ungereimtheiten erkennen und mit den richtigen Beweisen konfrontieren.

Anzeige
Anzeige

o1 an der Spitze, Gemini mit Abstand dahinter

Die Wissenschaftler:innen testeten mehrere aktuelle, multimodale KI-Modelle, darunter OpenAI o1, Gemini 2.5 Pro, Claude 3.7-thinking und Llama 4 Maverick. Dabei zeigten o1 und Gemini 2.5 Pro die beste Performance und erreichten beide Level 4, wobei o1 einen leichten Vorsprung bei den schwierigsten Fällen hatte.

Horizontales Balkendiagramm: Vergleich von 8 KI-Sprachmodellen im Ace Attorney Performance Test, Punktwerte von 0-26.
Mit 26 bzw. 20 Punkten demonstrieren die Modelle o1-2024-12-17 und Gemini-2.5-Pro ihre Überlegenheit im Ace Attorney Performance Test. | Bild: Hao AI Lab

Nach Angaben der Forschenden testet das Spiel verschiedene zentrale Eigenschaften, die aktuelle KI-Systeme voneinander unterscheiden: Sie müssen lange Kontexte durchsuchen und darin Widersprüche erkennen, visuelle Informationen präzise verstehen und strategische Entscheidungen im Spielverlauf treffen.

Bei der Entwicklung von Spielen geht die KI über einfache Text- und Bildaufgaben hinaus und muss das Verstehen in kontextbezogene Handlungen umsetzen. Overfitting ist schwieriger, da Erfolg in diesem Bereich das Denken in kontextabhängigen Aktionen erfordert und nicht nur auf Auswendiglernen basiert.

Overfitting bedeutet, dass sich ein KI-Modell die Trainingsdaten - einschließlich aller Zufälligkeiten und Fehler - merkt und deshalb neue, unbekannte Daten schlechter verarbeitet. Es tritt nach aktuellem Kenntnisstand auch bei Reasoning-Modellen auf, die beispielsweise für Mathe- und Code-Aufgaben optimiert sind.

Gemini Pro 2.5 bietet das beste Preis-Leistungs-Verhältnis

Gemini 2.5 Pro erwies sich zudem als deutlich kosteneffizienter als andere getestete Modelle. Laut Hao AI Lab ist es je nach Fall sechs- bis fünfzehnmal günstiger als o1. In Level 2, einem besonders langen Fall, kostete o1 über 45,75 Dollar, während Gemini 2.5 Pro nur 7,89 Dollar verbrauchte.

Empfehlung

Selbst im Vergleich zum gerade erst eingeführten GPT-4.1, das allerdings kein Reasoning-Modell ist, schneidet Gemini 2.5 Pro preislich besser ab: Es kostet 1,25 Dollar pro Million Input-Token gegenüber 2 Dollar bei GPT-4.1. Die Wissenschaftler:innen weisen allerdings darauf hin, dass die tatsächlichen Kosten aufgrund der Bildverarbeitung leicht höher liegen könnten.

Radar-Diagramm vergleicht KI-Modell-Performance in 6 Spielen (2048, Sokoban, Super Mario, Ace Attorney, Tetris), mit Leistungsskala 0-100.
Im Benchmark Game Arena hat das Hao AI Lab aktuelle Sprachmodelle bereits in Spielen wie 2048, Tetris, Sokoban oder Candy Crush verglichen. | Bild: Hao AI Lab

Im Benchmark Game Arena stellen die Forschenden bereits seit Ende Februar aktuelle Sprachmodelle in Spielen wie Candy Crush, 2048, Sokoban, Tetris und Super Mario auf die Probe. Ace Attorney dürfte das Spiel mit der anspruchsvollsten Mechanik der bisher getesteten Titel sein.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende des Hao AI Lab der University of California San Diego haben KI-Modelle wie OpenAI o1 und Gemini 2.5 Pro anhand des Videospiels "Phoenix Wright: Ace Attorney" getestet, in dem es gilt, Widersprüche zu erkennen und richtige Beweise vorzulegen.
  • Während beide Modelle die schwierigsten Level meisterten, zeigte sich das Modell o1 insgesamt leicht leistungsfähiger. Dagegen erwies sich Gemini 2.5 Pro als wesentlich günstiger und kostete in einem langen Fall nur rund 8 Dollar im Vergleich zu über 45 Dollar für das Modell o1.
  • Laut den Forschenden ermöglicht das Spiel einen besonders guten Test der KI, da es nicht nur das Verstehen von Texten und Bildern verlangt, sondern auch strategisches Entscheiden und das Herstellen logischer Zusammenhänge testet.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!