Inhalt
summary Zusammenfassung

Wirklich nützliche Videospielassistenten könnten näher sein, als wir bislang dachten. Während das Gaming auf der einen Seite barrierefreier macht, birgt es auch großes Missbrauchspotenzial im kompetitiven Bereich.  

Anzeige

In einem Paper haben bis dato anonyme Wissenschaftler:innen ein spezialisiertes KI-Modell namens VideoGameBunny vorgestellt. VideoGameBunny ist ein sogenanntes Vision-Language-Model, kann also Bilder verstehen und Fragen beantworten - in diesem Fall zu Videospielen anhand von Screenshots.

Das quelloffene multimodale Modell basiert auf der Bunny-Architektur und wurde mit einem umfangreichen Datensatz aus über 185.000 Screenshots von 413 Spielen trainiert, die von YouTube unter dem Suchbegriff "gameplay walkthroughs" gesammelt wurden. Bunny wiederum wurde von einer KI-Forschungsgruppe an der Beijing Academy of Artificial Intelligence entwickelt und im Februar in einem Paper präsentiert.

Hunderttausende Text-Bild-Paare fürs Training

Für das Training generierten die Forschenden mithilfe von Gemini 1.0 Pro, Gemini 1.5 Pro, GPT-4V, LLaMA-3 und GPT-40 fast 390.000 Bild-Text-Paare, darunter lange und kurze Bildunterschriften, Frage-Antwort-Sets und strukturierte JSON-Beschreibungen visueller Elemente.

Anzeige
Anzeige
Bild: VideoGameBunny

In einem Benchmark mit Multiple-Choice-Fragen zu Videospielbildern erreichte VideoGameBunny eine Genauigkeit von 85,1 Prozent gegenüber 83,9 Prozent für das viel größere, aber eben allgemein trainierte Open-Source-Modell LLaVA-1.6-34b.

VideoGameBunny zeigte besondere Stärken bei der Erkennung von spielspezifischen Anomalien und dem Verständnis von HUD-Informationen. Gefragt danach, ob diese Spielszene irgendwelche Glitches oder Fehler zeigt, verneinte dies nur VideoGameBunny korrekterweise. Das unveränderte Bunny-Modell störte sich hingegen an der leuchtenden Kugel in der linken Bildhälfte, LLaVA behauptete, der Download-Balken rechts oben sei steckengeblieben.

Bild: VideoGameBunny

Öffnet auch Türen für Cheater

Die Forscher:innen sehen ihr Modell als ersten Schritt in Richtung KI-Assistenten, die Aufgaben wie das Spielen, Kommentieren und Debuggen von Spielen übernehmen können. Ihnen ist jedoch auch bewusst, dass sie damit Cheating begünstigen könnten - eine gefährliche Gratwanderung zwischen Nutzen und Missbrauchspotenzial, die die aktuelle KI-Entwicklung stets begleitet.

Um weitere Forschung in diesem Bereich zu fördern, haben die Wissenschaftler:innen den Quellcode, die Trainingsdaten und die Protokolle von VideoGameBunny öffentlich zugänglich gemacht. Neben dem Modell mit 8 Milliarden Parametern existiert auch ein noch kleineres mit nur 4 Milliarden.

In jüngerer Vergangenheit gab es immer wieder Ansätze, bei denen KI-Modelle Spiele eigenständig spielen oder Menschen durch Kommentare dabei unterstützen. Microsoft demonstrierte erst im Mai die Fähigkeiten seines Copilots, Unerfahrenen bei Minecraft unter die Arme zu greifen.

Empfehlung

VideoGameBunny scheint durch sein umfangreiches Trainingsmaterial jedoch einen ganzheitlicheren Ansatz als bisherige Lösungen zu verfolgen. Statt nur auf ein Spiel spezialisiert zu sein, könnte daraus ein allgemeiner Spiele-Assistent entstehen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher:innen haben mit VideoGameBunny ein KI-Modell entwickelt, das für das Verständnis von Videospielen spezialisiert wurde. Es basiert auf der quelloffenen Bunny-Architektur und wurde mit über 185.000 Screenshots und 390.000 Bild-Text-Paaren trainiert.
  • In einem Benchmark mit Multiple-Choice-Fragen zu Videospielbildern übertraf VideoGameBunny mit 85,1 Prozent Genauigkeit das größere, aber allgemein trainierte LLaVA-Modell. Besonders gut schnitt es bei der Erkennung von spielspezifischen Anomalien und dem Verständnis von HUD-Informationen ab.
  • Die Forschenden sehen Potenzial für KI-Spieleassistenten, sind sich aber auch des Missbrauchsrisikos für Cheating bewusst. Um weitere Forschung zu ermöglichen, haben sie Quellcode, Trainingsdaten und Modelle öffentlich zugänglich gemacht.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!