Eine neue Methode bringt Robotern die "visuelle Verfolgung" bei. Kurz: Roboter können jetzt Menschen fangen.
Forschende der UC Berkeley haben eine neue Methode entwickelt, um Robotern beizubringen, bei dynamischen Aufgaben wie dem Fangen strategische Entscheidungen zu treffen. Dabei folgt der Roboter nicht einfach einer Person oder einem anderen Roboter, sondern schneidet ihm den Weg ab und sucht aktiv nach ihm.
Das Erlernen solcher Verhaltensweisen in der realen Welt ist für einen Roboter extrem schwierig, da er nur eine begrenzte Kenntnis seiner Umgebung und anderer Agenten durch seine Sensoren hat, die Ziele anderer Agenten unklar sind und die Bewegung in der physischen Welt grundsätzlich schwieriger ist als in Simulationen.
Das direkte Lernen solcher Verhaltensweisen, etwa durch Reinforcement Learning, scheiterte daher bisher an diesen Anforderungen.
Hunde-Roboter lernt von allwissendem KI-Lehrer
Das Team verwendet daher einen anderen Ansatz, das "privilegierte Lernen". Dabei handelt es sich um eine Form des überwachten Lernens, bei dem ein Lehrer, der über zusätzliche Informationen verfügt, einem Schüler hilft, der diese Informationen nicht hat.
Im Falle von Robotern bedeutet dies, dass der Roboterlehrer die zukünftige Bewegungsbahn des Ausweichenden nutzt, um auf dessen Absichten zu schließen. Ausgestattet mit dieser privilegierten Information kann er den Schüler-Roboter Schritt für Schritt anleiten, welche Aktionen er ausführen soll. Das an sich sehr komplexe Planungsproblem wird so für den Schüler zu einem einfachen überwachten Lernen.
Trotz der simplen Methode lernt der Roboter dynamische Verhaltensweisen, beispielsweise, seine Geschwindigkeit zu verringern, wenn sich der Ausweichende dreht, oder ihn abzufangen, indem er vorhersagt, wo er sein wird.
Die Forschenden testeten ihren Ansatz an einem echten vierbeinigen Roboter, der mit Menschen und anderen Robotern Fangen spielte und sich dabei ausschließlich auf eingebaute Kameras und Propriozeption stützte.
Auch der echte Roboter zeigte die komplexen Verhaltensweisen, die das zugrundeliegende Modell in der Simulation gelernt hatte und fängt andere Roboter und Menschen auf einer Wiese.
Mit Hindernissen kommt das System bisher nicht klar - dafür benötige es umfassenderes KI-Training und bessere Sensoren, so die Forschenden.
Mehr Informationen gibt es auf der Projektseite.