Bei PaLM-SayCan kombiniert Google aktuelle Robotertechnologie mit Fortschritten bei großen KI-Sprachmodellen.
Die Fortschritte bei großen KI-Sprachmodellen kommen bislang primär in unserem digitalen Leben an, etwa bei der Übersetzung von Texten, der Text- und Bildgenerierung oder im Hintergrund, wenn Technologie-Plattformen Sprach-KI für die Moderation von Inhalten einsetzen.
Beim Projekt PaLM-SayCan kombinieren Google-Abteilungen jetzt das bislang fortschrittlichste große Sprachmodell des Konzerns mit einem alltagstauglichen Roboter, der eines Tages im Haushalt helfen könnte - ein Echtwelt-Assistant.
Großes Sprachmodell trifft auf Alltagsroboter
Google stellte das riesige KI-Sprachmodell PaLM Anfang April vor und rechnete dem Modell "bahnbrechende Fähigkeiten" beim Sprachverständnis und speziell beim schlussfolgerndem Denken zu.
PaLM steht für "Pathways Language Modell" - damit ist es ein Baustein in Googles großer Pathways-KI-Strategie für die nächste Generation KI, die Tausende oder Millionen Aufgaben effizient bewältigen kann.
PaLM hat ein Verständnis für Ursache und Wirkung, kann so simple Textaufgaben lösen und sogar einfache Witze erklären. Der Konzern erreichte die überlegene PaLM-Performance primär mit besonders umfassendem KI-Training: Mit 540 Milliarden Parametern gehörte das Modell zu den größten seiner Art. Je größer das Modell, desto vielfältiger verarbeitet es Sprache, lautete ein Fazit der Forschenden.
An Robotern forscht Google seit 2019 verstärkt. Den im Projekt verwendeten Haushaltsroboter stellte der Konzern erstmals Ende 2021 vor. Er ist in Google-Büros unterwegs und kann etwa Müll sortieren, Tische abbürsten, Stühle rücken und Objekte bringen. Er orientiert sich mittels maschinellem Sehen und einem Radarsystem.
PaLM kann Aufgaben zerlegen und priorisieren
Für die Kombination aus Sprach-KI und Alltagsroboter setzt Googles Forschungsteam speziell auf PaLMs Fähigkeit zu Gedankenketten ("Chain of thought prompting"). Dabei interpretiert das Modell eine Anweisung, generiert mögliche Schritte für die Erfüllung der Anweisung und bewertet deren Wahrscheinlichkeit für die Erfüllung der Gesamtaufgabe. Die Aktion, die vom Sprachmodell am höchsten bewertet wird, führt der Roboter aus.
Im Alltag könnte man so Anweisungen an den Roboter luftiger formulieren, Gespräche würden natürlicher: Fragt man etwa nach einem energiebringenden Snack, bringt der Roboter bevorzugt einen Energieriegel, hat aber alternativ auch einen Apfel, ein künstliches Zucker-Getränk mit Aminosulfonsäure oder eine Zitronenlimonade auf der Speisekarte.
Ein Sprachmodell-getriebener Google-Roboter im eigenen Haushalt ist eine mögliche Zukunftsvision. Laut des Forschungsteams gibt es bis dahin allerdings noch "viele mechanische Probleme und Intelligenzprobleme zu lösen".
Der smarte PaLM-Roboter bleibt daher vorerst weiter ein Testprojekt im Google-Büro. Die Kombination aus Sprache und Robotik habe allerdings ein "enormes Potenzial" für zukünftige, auf menschliche Bedürfnisse abgestimmte Roboter, schreibt das Projektteam.
Google zeigt auf der offiziellen Webseite zu PaLM-SayCan weitere Demoszenarien. Mehr zum aktuellen Stand bei Sprach-KI-Forschung gibt es in unserem KI-Podcast DEEP MINDS mit Sebastian Riedel von Meta AI.