Eine neue Variante der KI-Trainingsmethode bestärkendes Lernen soll autonome Autos besser machen.
Zucker-Eins und Peitschen-Null
Bestärkendes Lernen arbeitet mit Belohnung und Bestrafung: Die KI bekommt ein Ziel gesetzt und muss ihren Pfad zu diesem selbstständig finden. Kommt sie näher, wird sie belohnt. Tritt sie daneben, wird sie bestraft.
Die Methode bietet sich inbesondere für komplexe Aufgaben an, bei denen die KI zahlreiche Aktionen unter vielfältigen Bedingungen ausführen muss – zum Beispiel Roboter, Autos oder Flugzeuge steuern.
Sie hat erfolgreiche Jahre hinter sich: AlphaGo von Deepmind ist das wohl bekannteste Beispiel einer durch bestärkendes Lernen trainierten KI. 2016 schlug sie den stärksten Go-Spieler der Welt.
AlphaGo heißt mittlerweile AlphaZero und beherrscht einige Brettspiele auf laut Deepmind "übermenschlichem Niveau". Für Deepmind-Gründer Demis Hassabis ist AlphaZero das Sprungbrett zur Allgemeinen Künstlichen Intelligenz, also einer KI, die sich eigenständig weiterentwickeln und Wissen zwischen Aufgaben transferieren kann.
VR-Training soll vor dem Crash bewahren
Das Problem bei bestärkendem Lernen: Die Versuch-und-Irrtum-Methode kann in der echten Welt katastrophal enden. Denn vor dem Erfolg stehen endlos viele Fehlschläge. Die Lösung: Die KI wird zunächst in einer Simulation statt in der Realität trainiert.
Autonome Autos zum Beispiel lernen das Fahren in einer virtuellen Umgebung, bevor sie auf echte Straßen wechseln. Damit sie beim Training in der Simulation nicht von null starten müssen, nutzen Forscher das sogenannte modellbasierte bestärkende Lernen.
Die KI lernt zuerst die Dynamik der virtuellen Umgebung kennen und plant dann Aktionen im Voraus. Diese geplanten Aktionen werden belohnt oder bestraft – je nach Ergebnis der Handlung. Entlang dieser Rückmeldung passt die KI ihre Planungen an.
Der große Vorteil bei diesem Vorgehen ist, dass die KI aus den Beobachtungsdaten des echten Straßenverkehrs lernen kann, bevor sie eine erste virtuelle Runde dreht. Dieses Vortraining reduziert den Aufwand für die Simulation, sodass schneller gute Ergebnisse erzielt werden können.
Wo hängt es noch?
Da stellt sich die Frage: Wenn das KI-Training so gut durchdacht ist, warum brauchen die Autos auf unseren Straßen dann noch immer einen menschlichen Fahrer?
Die Antwort: Die KI kann noch immer fatale Fehler begehen, wenn sie Situationen ausgesetzt ist, die nicht Teil der Trainingsdaten sind oder die in der virtuellen Welt keine Konsequenzen haben.
Linksabbiegen in den Gegenverkehr, im Kreis fahren für maximale Punktzahl oder bei Unsicherheit nicht abbremsen – Straßenverkehr ist komplex und minimale Veränderungen im Verhalten von Mensch oder Maschine können zahlreiche Konsequenzen haben.
Abweichler werden bestraft
Eine Forschergruppe der New York University hat in Kooperation mit Facebook jetzt eine Modifikation des bestärkenden Lernens speziell für selbstfahrende Autos vorgestellt.
Die Gruppe führte eine neue Regel ein: Immer, wenn die geplanten Aktionen der KI stark von den durch Beobachtungsdaten gelernten abweichen, wird sie bestraft. Zum Beispiel, wenn sie allzu scharfe Kurven fahren oder den Gegenverkehr kreuzen will.
So vermeidet sie Situationen, in denen keine ausreichenden Trainingsdaten vorliegen. Der Effekt: Die KI fährt vorsichtiger und plant keine Aktionen, die in unbekannte und womöglich gefährliche Situationen führen.
Die Fahrleistung erreichte in Tests zwar noch kein menschliches Niveau, zog jedoch an bisherigen Methoden vorbei. Die Forscher sind davon überzeugt, dass sich der Abstand zwischen Mensch und Maschine mit ihrem Ansatz weiter schließen lässt.
Titelbild: Uber