Inhalt
summary Zusammenfassung

Deepminds DreamerV3 ist ohne Anpassungen auf unterschiedliche Probleme anwendbar - und kann als erster Algorithmus Diamanten in Minecraft sammeln.

Anzeige

Bevor KI-Systeme von Deepmind Go-Weltmeister schlugen, begann das Unternehmen seinen Siegeszug im Reinforcement Learning mit Atari-Klassikern. Auch heute arbeiten KI-Forschende an neuen Reinforcement-Learning-Modellen, die Videospiele spielen. Der Fokus hat sich in den vergangenen Jahren dabei jedoch hin zu komplexeren Spielen mit offeneren Welten und zahlreichen Herausforderungen verschoben.

Im Fokus der KI-Forschung steht häufig Minecraft, denn das Spiel bietet nur spärliche Belohnungssignale, erfordert die Erkundung offener Umgebungen und hat lange Spielzeiten.

Deepmind zeigt nun DreamerV3, einen skalierbaren Algorithmus, der in zahlreichen Benchmarks ohne Veränderungen am Modell eingesetzt werden kann. Er kann zudem das erste Mal ohne Daten menschlicher Experten oder handgebauter Kurrikula in Minecraft Diamanten sammeln.

Anzeige
Anzeige

DreamerV3: Deepmind zeigt generellen Algorithmus für Reinforcement Learning

Aktuelle Algorithmen können bereits viele Aufgaben in unterschiedlichen Domänen lösen - doch sie müssen für jede Aufgabe angepasst werden. Das widerspricht dem Ideal einer generellen Intelligenz, die ohne Modifikationen ganz unterschiedliche Aufgaben erledigen kann.

DreamerV3 ist laut Deepmind dagegen bei fixen Hyperparametern des Modells generalistisch und skalierbar. Das reduziere die Menge an nötiger Expertise und Rechenressourcen, die für die Anwendung des Reinforcement Learning auf neue Probleme erforderlich sei.

DreamerV3 sei daher in vielen Domänen sofort anwendbar, darunter solche mit "kontinuierlichen und diskreten Aktionen, visuellen und niedrigdimensionalen Eingaben, 2D- und 3D-Welten, unterschiedlichen Datenbudgets, Belohnungsfrequenzen und Belohungsskalen."

Konkret kann DreamerV3 etwa 55 Atari-Spiele spielen, Objekte mit Roboterarmen in Simulationen manipulieren oder virtuelle Welten erkunden und in ihnen Aufgaben erledigen - etwa in Minecraft.

Der Algorithmus setzt auf drei neuronale Netze: Eines ist das Weltmodell, das Repräsentationen der Sensor-Inputs lernt und zukünftige Repräsentationen und Belohnungen potenzieller Aktionen vorhersagt. Die anderen beiden sind der Critic, der den Wert jeder Situation beurteilt und der Actor, der lernt, Situationen zu erreichen, die diesen Wert maximieren.

Empfehlung

Deepminds DreamerV3 ist effizient

Deepmind testete DreamerV3 in sieben Domänen in mehr als 150 Aufgaben gegen die jeweils besten verfügbaren Algorithmen, die oft speziell auf diese Aufgaben zugeschnitten sind. DreamerV3 erreichte in allen Tests eine starke Leistung und schob sich in vier Domänen vor die bisherige Spitze - trotz fixer Hyperparameter. Der Vorgänger DreamerV2 hatte eine schwächere Leistung, die Unterschiede zur neuen Version dokumentiert das Team im Paper.

Video: Deepmind

In Minecraft konnte DreamerV3 Diamanten abbauen. Das ist besonders, da der Algorithmus hierfür zahlreiche Zwischenschritte durchführen, wie Ressourcen sammeln oder Spitzhacken in einer Werkbank herstellen.

Tatsächlich ist das schon anderen KI-Modellen gelungen, OpenAIs VPT konnte sogar eine Diamant-Spitzhacke erstellen. VPT benötigte jedoch mehr als 70.000 Stunden Minecraft-Gameplayvideos und wurde auf 720 Nvidia V100 GPUs für neun Tage trainiert. DreamerV3 lernte das Diamantsammeln dagegen in 17 Tagen auf einer einzelnen V100.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Der Algorithmus sei außerdem erfolgreich skalierbar: Das Team weist bessere Leistung in verschiedenen Benchmarks und eine höhere Dateneffizienz nach.

Weitere Informationen gibt es auf Projektseite von DreamerV3. Dort soll in Kürze auch der Code verfügbar sein.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Deepminds DreamerV3 sammelt als erster Reinforcement-Learning-Algorithmus Diamanten in Minecraft ohne menschliche Hilfe wie Videotraining.
  • DreamerV3 ist zudem in sieben weiteren Domänen ohne Modifikation der Hyperparameter erfolgreich und schlägt in vier davon die bisher besten Algorithmen.
  • Das Modell ist verhältnismäßig sparsam und lässt sich laut Deepmind gut skalieren.
  • DreamerV3 senkt so die notwendige Expertise und Rechenressourcen, die für den Einsatz von Reinforcement Learning notwendig sind.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!