Weshalb OpenAI eine Künstliche Intelligenz Verstecken spielen lässt

23. September 2019

OpenAI lässt KIs Verstecken spielen – ihr Verhalten ist verblüffend menschlich.

Die KI-Schmiede OpenAI veröffentlicht neue Details zur Weiterentwicklung der KI-Trainingsmethode bestärkendes Lernen. Sie soll es Künstlicher Intelligenz nach einem einfachen Prinzip ermöglichen, selbstständig Ziele in komplexen Umgebungen zu erreichen. Die KI wird belohnt, wenn sie ihrem Ziel näher kommt und optional bestraft, wenn sie sich davon entfernt. Der Lernprozess ist in Grundzügen vom evolutionären Prozess inspiriert.

OpenAI setzte diese Lerntechnik bereits für eine jonglierende Roboterhand und einen Dota-2-Bot ein, der erstmals menschliche Profispieler in die Knie zwang. Das KI-Training findet dabei in einer virtuellen Umgebung statt, weil diese besonders flexibel ist. Beispielsweise kann neben der Justage zahlreicher Parameter das Simulationstempo beschleunigt werden.

KI-Forscher hoffen, dass so intelligente KI-Agenten entstehen, die die für eine spezifische Umgebung geltenden Regeln eigenständig erlernen und so ausnutzen, dass sie ihr Ziel erreichen.

KI-Forscher brachten einem Roboter bei, Objekte in der Hand zu jonglieren. Dafür musste sie fast hundert Jahre in einer Simulation üben. — OpenAIs Roboterhand Dactyl lernte das Jonglieren nach dem Versuch-und-Irrtum-Prinzip zunächst in einer Simulation. Bild: OpenAI

Verstecken mit mehreren Spielern

OpenAIs neuste Computersimulation lässt mehrere KI-Agenten miteinander Verstecken spielen. Eingesperrt in einem einfachen Raum mit einigen Wänden und Gegenständen, tapst die KI anfangs recht unsicher durchs Gelände.

Nach einigen tausend Wiederholungen entwickelten Sucher und Gesuchte langsam komplexere Taktiken: Sie nutzten die in der Simulation vorhandenen Boxen, Rampen und Wände, um sich in Räume einzusperren, über Hindernisse zu klettern oder sich in selbstgebauten Räumen zu verstecken.

Das Verhalten ist nicht programmiert, einzig das Ziel, nicht gefunden zu werden, ist vorgegeben: Die KIs lernten selbstständig, die vorhandenen Werkzeuge zu ihrem Vorteil zu nutzen. Dabei kooperieren sie, etwa um schneller ein sicheres Versteck zu schaffen. Schaut euch die verschiedenen Verhaltensweisen in den folgenden Videos selbst an.

KI entdeckt Fehler und nutzt sie aus

Wie so häufig, entdeckten die KI-Agenten Fehler in der Simulation: Sie "surften" auf Boxen, rannten aus dem Spielfeld, nutzten die Physik, um Rampen aus dem Spielfeld zu schubsen oder katapultierten sich in die Luft. Dieses Verhalten war bei der Anlage der Computersimulation nicht vorgesehen – und offenbar auch nicht vorhersehbar. Solche Ausreißer sind im Kontext eines Videospiels ganz niedlich, im realen Leben könnten sie jedoch fatale Konsequenzen haben.

OpenAI sieht die Ergebnisse als einen weiteren Beweis, dass mit bestärkendem Lernen und mehreren Agenten komplexes Verhalten aus vergleichsweise einfachen Spieldynamiken und -umgebungen entstehen kann. Ähnliche Schlussfolgerungen zog OpenAI auch aus dem Dota-2-Bot oder Deepmind aus der eigenen Brettspiel-KI AlphaGo.

Es spreche vieles dafür, dass eine offenere und vielfältigere Umgebung mit mehreren KI-Agenten zu noch komplexerem Verhalten führen werde – und so etwa zu intelligenteren Robotern und virtuellen Assistenten.

Titelbild: OpenAI, Quelle: OpenAI

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Weshalb OpenAI eine Künstliche Intelligenz Verstecken spielen lässt

Verstecken mit mehreren Spielern

KI entdeckt Fehler und nutzt sie aus

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.