Google Labs zeigt neue Interaktionsmöglichkeiten von Gemini 2.0, die insbesondere für die Robotik relevant sein könnten. Die Kombination von visueller und sprachlicher Verarbeitung ermöglicht neue Anwendungen.
Das Team von Google Labs demonstrierte auf der X die neuen Möglichkeiten des neuen multimodalen Gemini 2.0 Flash. In Videos wird gezeigt, dass Nutzer mit Gemini 2.0 nun durch einfaches Antippen und Textprompts mit Bildern interagieren können.
In den Demonstrationen wird gezeigt, wie Gemini 2.0 z.B. aufgrund eines Bildausschnitts mit einem Lichtschalter und der Anweisung, diesen zu betätigen, die Beleuchtung in der Szene anpassen kann. Dabei versteht das System sowohl die visuellen Elemente als auch die sprachlichen Anweisungen.
One more thing....@ameliovr and team have been experimenting with Gemini 2.0's native image out capabilities to
🧭 navigate
🧑🎨 modify
🫳 interact
⚙️simulateinside images using tap & prompt. eg turning on the lights if you tap the lightswitch 💡
a 🧵 pic.twitter.com/qI1LN5iAU6
— Simon (@tokumin) December 12, 2024
In einem anderen Beispiel markiert ein Benutzer den Türgriff eines Autos, und Gemini 2.0 generiert daraufhin ein Bild des Autos mit geöffneter Tür. Beeindruckend ist nicht die Art der Interaktion, sondern die Konsistenz der Ergebnisse. Der Inhalt des Raumes oder das Aussehen des Autos ändern sich gegenüber dem Originalbild kaum, nur die gewünschten Veränderungen werden vorgenommen.
Native image output with Gemini 2.0 Flash is what I’ve always wanted from an image model, the consistency when iterating is so magical. All without any complex orchestration or develop tooling.pic.twitter.com/VMNUW84gyo
— Logan Kilpatrick (@OfficialLoganK) December 15, 2024
Das macht Gemini 2.0 zu einem interessanten Werkzeug für Kreative - aber auch zu einem vielversprechenden System für weitere Anwendungen, wie Google erklärt.
Visuelle Planung für Robotersysteme
Eine besondere Stärke von Gemini 2.0 liegt in der visuellen Ursache-Wirkungs-Erkennung. Das System kann Handlungsabläufe visuell planen und bewerten, was insbesondere für die Robotik relevant sein könnte. Die Kombination von Bildverstehen und Sprachverarbeitung ermöglicht es dem System zudem, komplexe Navigationsanweisungen zu verstehen und umzusetzen. Dazu wird ein Ansatz verwendet, der als "Visual Chain of Thought" (vCoT) bezeichnet wird.
Nach Einschätzung der Google-Entwickler ist diese Fähigkeit zur robusten und fehlertoleranten Planung ein wichtiger Schritt für die Entwicklung adaptiver Robotersysteme. Das Unternehmen arbeitet bereits seit einiger Zeit an der Verwendung von großen Sprachmodellen und multimodalen Modellen in der Robotik, zum Beispiel mit dem Robotic Transformer.
Erst im Sommer demonstrierte ein Team von Google Deepmind, wie Roboter mithilfe des großen Kontextfensters von Gemini 1.5 Pro in komplexen Umgebungen navigieren können. In einer Demonstration zeigte das Unternehmen, wie die Roboter durch unbekannte Umgebungen allein durch menschliche Anweisungen, Videoanleitungen und LLM-Schlussfolgerungen navigieren - und so etwa zu Orten zurückfinden können, die ihnen zuvor gezeigt wurden.