Inhalt
summary Zusammenfassung

Mit PaLM-E stellen Google Robotics, die TU Berlin und Google Research ein neues KI-Modell vor, das Sprache erzeugen, Bilder verstehen und beides zusammen für komplexe Roboterbefehle nutzen kann.

Anzeige

PaLM-E umfasst 562 Milliarden Parameter und kombiniert Googles riesiges Sprachmodell PaLM mit ViT-22B, dem bisher größten Vision Transformer.

Die Hauptidee der PaLM-E-Architektur besteht darin, kontinuierliche, verkörperte Beobachtungen wie Bilder, Zustandseinschätzungen oder andere Sensormodalitäten in den Spracheinbettungsraum eines vortrainierten Sprachmodells zu injizieren.

Aus dem Paper

 

Video: Google

Anzeige
Anzeige

Das größte PaLM-E-Modell ist in der Lage, natürliche Sprache auf PaLM-Niveau zu verarbeiten, gleichzeitig aber auch Bildinhalte zu verstehen und zu beschreiben und durch die Kombination von Sprache und Computer Vision Roboter durch präzise, aufeinander aufbauenden Arbeitsschritten zu führen.

PaLM-E kann durch Sprach- und Bildverständnis Roboter durch die reale Welt führen. | Video: Google

Mit PaLM-SayCan zeigte Google bereits in der Vergangenheit, dass Sprachmodelle bei der Steuerung von Robotern helfen können. Der kombinierte Trainingsansatz von PaLM-E über verschiedene Domänen hinweg soll zu einer "signifikant höheren Leistung" im Vergleich zu rein für die Robotik optimierten Modellen führen.

Wichtig ist, dass wir gezeigt haben, dass dieses vielseitige Training zu mehreren Übertragungswegen von der visuellen Sprache zur verkörperten Entscheidungsfindung führt, wodurch Roboterplanungsaufgaben dateneffizient durchgeführt werden können.

Aus dem Paper

PaLM-E beherrscht verschiedene Robotik- und Bildaufgaben

Google zeigt eine weitere Demo, in der PaLM-E einen Roboterarm steuert, der Blöcke anordnet. Die Besonderheit hier ist, dass der Roboter visuelle und sprachliche Eingaben parallel verarbeitet und für die Lösung der Aufgabe nutzt. So kann er beispielsweise Blöcke nach Farben sortiert in verschiedene Ecken schieben. PaLM-E generiert dabei aus dem visuellen Input Schritt für Schritt die Lösungsanweisungen.

Empfehlung

Video: Google

Nach Ansicht des Forschungsteams zeigt das Modell auch die Fähigkeit zur Generalisierung. In der folgenden Demonstration bewegt es die roten Blöcke präzise und wie vorgegeben in Richtung des Kaffeebechers. In den Trainingsdaten gab es nur drei Beispiele mit Kaffeebechern, von denen keines rote Blöcke im Bild hatte.

Video: Google

Ferner sei PaLM-E auch ein "kompetentes Bild-Sprach-Modell", schreiben die Forschenden. So erkennt es etwa den Basketballstar Kobe Bryant auf einem Bild und kann Text-Informationen über ihn generieren, etwa wie viele Meisterschaften er gewonnen hat. In einem anderen Beispiel sieht PaLM-E ein Verkehrsschild und erklärt, welche Regeln damit verbunden sind.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Bild: Google
Bild: Google

Die Sprachfähigkeiten von PaLM-E verlieren durch das multimodale und Robotertraining bei den kleineren PaLM-E-Modellen deutlich an Leistung. Dieses Phänomen ist als "katastrophales Vergessen" bekannt und wird normalerweise durch eingefrorene Sprachmodelle beim Training vermieden.

Der Leistungsabfall gegenüber dem größeren PaLM-Modell ist dagegen minimal, was nach Ansicht der Forscherinnen und Forscher zeigt, dass Skalierung gegen das katastrophale Vergessen helfen kann.

Darüber hinaus zeigt das größte PaLM-E-Modell mit 562 Milliarden Parametern emergente Fähigkeiten wie multimodale Gedankenketten und die Fähigkeit, über mehrere Bilder hinweg zu schlussfolgern, obwohl das Modell nur mit Einzelbild-Prompts trainiert wurde.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Mit PaLM-E kombiniert ein Forschungsteam von Google in Zusammenarbeit mit der Technischen Universität Berlin die Fähigkeiten eines riesigen Sprachmodells mit denen eines großen Computer-Vision-Modells.
  • PaLM-E kann Sprache erzeugen, Bilder beschreiben und beides zusammen nutzen, um Roboter durch komplexe Aufgaben in der Realität zu führen.
  • Das Modell ist ein weiterer Schritt auf dem Weg, künstliche Intelligenz in den Alltag zu integrieren.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!