Deepmind zeigt selbstlernende Agenten in Computerspielen und KI-generierten 3D-Welten
Kurz & Knapp
- DeepMind hat mit SIMA 2 einen KI-Agenten vorgestellt, der Aufgaben in 3D-Welten versteht, plant, ausführt und daraus lernt. Das System verarbeitet komplexe Anweisungen, erklärt eigene Handlungen und passt sich an neue Spiele an.
- SIMA 2 erzielt in ungewohnten Umgebungen deutlich höhere Erfolgsraten als der Vorgänger, lernt eigenständig durch Erfahrung und kann Erlerntes auf andere Spiele übertragen.
- Technische Grenzen bestehen bei Gedächtnis, Planung und Präzision. Der Agent bleibt ein Forschungssystem, eine Anwendung in realer Robotik ist bislang offen.
SIMA 2 kann Aufgaben in 3D-Welten verstehen, planen, ausführen und daraus lernen. Der Agent soll sich ohne weitere menschliche Hilfe verbessern und überträgt Erlerntes auf neue Spiele.
SIMA 2 ist Deepminds neuer KI-Agent für virtuelle 3D-Umgebungen. Im Gegensatz zum Vorgänger SIMA 1, der einfache Sprachbefehle ausführen konnte, soll SIMA 2 Aufgaben verstehen, logisch begründen und eigenständige Entscheidungen treffen. Möglich wird das durch die Integration von Gemini. Google Deepmind folgt damit einer Idee, die Nvidias Minecraft-Bot Voyager ähnelt, der GPT-4 einband, um aus dem Spielgeschehen zu lernen. Gemini ist allerdings deutlich leistungsstärker und multimodal.
Der Agent navigiert durch komplexe Spielwelten, indem er das Bild auf dem Bildschirm analysiert und Tastatur- und Mausbefehle simuliert – ohne Zugriff auf interne Spieldaten. SIMA 2 ist damit ein "verkörperter Agent", der wie ein Mensch mit der Spielumgebung interagiert.
Laut Deepmind kann das System seine Absichten erklären, Zwischenschritte beschreiben und auf Rückfragen reagieren – nicht perfekt, aber deutlich besser als SIMA 1. Die Interaktion soll sich dadurch weniger wie das Geben von Kommandos und mehr wie eine kooperative Aufgabenlösung anfühlen.
Bessere Leistung in unbekannten Spielen
Ein zentrales Ziel von SIMA 2 ist es, Aufgaben auch in Spielen zu bewältigen, die es nie zuvor gesehen hat. In Tests mit dem Minecraft-basierten MineDojo und dem neu veröffentlichten Spiel ASKA zeigte SIMA 2 eine deutlich höhere Erfolgsquote als der Vorgänger. Während SIMA 1 viele Aufgaben nicht lösen konnte, erreichte SIMA 2 in neuen Spielen Erfolgsraten zwischen 45 und 75 Prozent – gegenüber 15 bis 30 Prozent bei SIMA 1.
Das System kann auch abstrakte Konzepte übertragen – etwa das, was es in einem Spiel als „Ernten“ gelernt hat, in einem anderen als „Abbauen“ anwenden. Diese Art der Generalisierung ist eine Voraussetzung für KI-Systeme, die flexibel auf neue Situationen reagieren sollen.
SIMA 2 verarbeitet multimodale Eingaben – etwa Sprache, Bilder oder Emojis – und kann damit auch komplexere, mehrstufige Anweisungen verstehen. Die technische Umsetzung erlaubt längere Interaktionen in Echtzeit bei höherer Auflösung als bisher.
Lernen durch Ausprobieren statt durch Menschen
Eine zentrale Neuerung ist die Fähigkeit zur eigenständigen Weiterentwicklung: SIMA 2 kann neue Aufgaben durch selbstgesteuertes Ausprobieren lernen, ohne zusätzliche menschliche Daten. Der Lernprozess beginnt mit Beispielen und Bewertungen, die von Gemini bereitgestellt werden. Danach generiert der Agent eigene Trainingsdaten durch Versuch und Irrtum, bewertet seine Leistung und nutzt diese Erfahrungen für weitere Lernzyklen. Menschliches Eingreifen ist dabei nicht mehr erforderlich.
Diese Fähigkeit zur Selbstverbesserung wurde auch in Kombination mit Deepminds Projekt Genie 3 getestet, das aus Text- oder Bildprompts neue 3D-Welten erzeugt. SIMA 2 konnte sich auch in diesen unbekannten, dynamisch erzeugten Umgebungen orientieren und Aufgaben bewältigen.
Die Grenzen bleiben sichtbar
Trotz der Fortschritte gibt Deepmind Einschränkungen offen zu. SIMA 2 hat weiterhin Probleme mit Aufgaben, die über längere Zeiträume viele Einzelschritte erfordern. Auch das Gedächtnis des Systems ist begrenzt – es kann nur eine begrenzte Menge an Kontextinformationen gleichzeitig verarbeiten.
Hinzu kommt, dass die Steuerung über simulierte Tastatur- und Mausbefehle für präzise Aktionen nicht immer zuverlässig funktioniert. Visuelles Verständnis in komplexen 3D-Szenen bleibt ebenfalls eine offene Herausforderung. Diese Schwächen zeigen, dass der Weg zu allgemein einsetzbarer KI noch weit ist.
Potenzial für Robotik, aber keine Anwendung in Sicht
Deepmind sieht in SIMA 2 einen möglichen Zwischenschritt auf dem Weg zu physisch einsetzbaren KI-Systemen. Fähigkeiten wie Navigation, Werkzeugnutzung und einfache Zusammenarbeit gelten als Grundbausteine für Roboterassistenten. Konkrete Anwendungen außerhalb der Forschung sind aber bislang nicht vorgesehen.
SIMA 2 bleibt somit vorerst Teil eines begrenzten Forschungsprogramms und wird nur einer kleinen Gruppe aus Akademie und Spieleindustrie zugänglich gemacht. Das Ziel ist es, technische Schwächen zu analysieren und Risiken besser zu verstehen, bevor breitere Tests folgen.
