Googles KI-Schwester Deempind arbeitet an einer neuen Software, mit der Roboter eigenständig die Kontrolle über ihre mechanischen Fähigkeiten lernen sollen.
Deepmind verwendet dafür einen Ansatz aus dem verstärkenden Lernen, bei dem KI-Agenten - nach einer initialen Einrichtung durch Menschenhand - eigenständig und unbeaufsichtigt nach einer Lösung für eine vorgegebene Aufgabe suchen. Lösen sie die Aufgabe, werden sie dafür belohnt, zum Beispiel mit einem Punkt. Über die Zeit sollen sie die Aufgabe so immer effizienter lösen.
Das KI-Unternehmen stattete einen Robotergreifarm mit zahlreichen Sensoren aus, richtete die Selbstlernsoftware ein und gab dem KI-Agenten eine einfache Aufgabe: Finde einen grünen Bauklotz und hebe ihn hoch. Der Robotergreifarm musste anschließend eigenständig herausfinden, wie er seine Sensoren aktivieren und seine Mechanik einsetzen kann, um diese Aufgabe zu lösen.
Offenbar erfolgreich: Der KI-Agent lernte laut Deepmind von Grund auf, mithilfe seiner Sensoren den Bauklotz zu identifizieren, zu greifen und hochzuheben - ohne dass im diese Lösung zuvor gezeigt wurde. Das funktionierte in einer rein virtuellen Simulation und in der realen Umgebung mit einem richtigen Roboterarm.
Auf der Suche nach einer Problemlösung kann der KI-Agent außerdem Hilfsfähigkeiten entdecken und zusätzlich erlernen. Zum Beispiel, dass Bauklötze nicht nur weggeräumt, sondern auch gestapelt werden können. Eine vom KI-Agenten verwaltete und sich selbst verbessernde Planungssoftware priorisiert die möglichen Handlungen und versucht, den Erfolg in der Hauptaufgabe zu maximieren.
Lernen wie ein Baby
Deepmind lässt den Roboter bewusst zuerst mit Bauklötzen spielen. Ein KI-Agent müsse zuerst sehr einfache Fähigkeiten lernen, vermutet das Unternehmen, bevor er komplexe Aufgaben bewältigen kann. Deepmind vergleicht das mit einem Baby, das zuerst Koordination und Balance trainiert, bevor es das Laufen lernt.
Wenn sich Deepminds Ansatz langfristig als tauglich erweist, bräuchte ein KI-gesteuerter Roboter keinen linearen Programmcode mehr, der für jede Aufgabe neu geschrieben oder angepasst werden muss. Stattdessen wäre er in der Lage, die ihm von Menschen übertragenen Aufgaben flexibel zu lösen basierend auf Grundlagenwissen über seine mechanischen Fähigkeiten im Verhältnis zur Umgebung - so ähnlich wie der Mensch weiß, wie er seinen Körper einsetzen kann.
Solche flexibel selbstlernenden Roboter könnten beispielsweise im Haushalt Hilfestellung leisten und Menschen einfache Aufgaben abnehmen. Für industrielle Roboter, die meist nur eine einzelne Aufgaben bewältigen müssen, diese dafür aber herausragend und sehr präzise, mag dieser Ansatz weniger relevant sein.
Deepmind jedenfalls bezeichnet die KI-Software als wichtigen Schritt, um eine KI eigenständig Steuerungsaufgaben entwickeln zu lassen, mit denen ein vorgegebenes Ziel erreicht werden kann. Die Lernsoftware könne auch außerhalb der Robotik und reinen Steuerungsaufgaben eingesetzt werden. Die wissenschaftliche Publikation ist hier einsehbar.