Inhalt
summary Zusammenfassung

Google Labs zeigt neue Interaktionsmöglichkeiten von Gemini 2.0, die insbesondere für die Robotik relevant sein könnten. Die Kombination von visueller und sprachlicher Verarbeitung ermöglicht neue Anwendungen.

Anzeige

Das Team von Google Labs demonstrierte auf der X die neuen Möglichkeiten des neuen multimodalen Gemini 2.0 Flash. In Videos wird gezeigt, dass Nutzer mit Gemini 2.0 nun durch einfaches Antippen und Textprompts mit Bildern interagieren können.

In den Demonstrationen wird gezeigt, wie Gemini 2.0 z.B. aufgrund eines Bildausschnitts mit einem Lichtschalter und der Anweisung, diesen zu betätigen, die Beleuchtung in der Szene anpassen kann. Dabei versteht das System sowohl die visuellen Elemente als auch die sprachlichen Anweisungen.

Anzeige
Anzeige

In einem anderen Beispiel markiert ein Benutzer den Türgriff eines Autos, und Gemini 2.0 generiert daraufhin ein Bild des Autos mit geöffneter Tür. Beeindruckend ist nicht die Art der Interaktion, sondern die Konsistenz der Ergebnisse. Der Inhalt des Raumes oder das Aussehen des Autos ändern sich gegenüber dem Originalbild kaum, nur die gewünschten Veränderungen werden vorgenommen.

Das macht Gemini 2.0 zu einem interessanten Werkzeug für Kreative - aber auch zu einem vielversprechenden System für weitere Anwendungen, wie Google erklärt.

Visuelle Planung für Robotersysteme

Eine besondere Stärke von Gemini 2.0 liegt in der visuellen Ursache-Wirkungs-Erkennung. Das System kann Handlungsabläufe visuell planen und bewerten, was insbesondere für die Robotik relevant sein könnte. Die Kombination von Bildverstehen und Sprachverarbeitung ermöglicht es dem System zudem, komplexe Navigationsanweisungen zu verstehen und umzusetzen. Dazu wird ein Ansatz verwendet, der als "Visual Chain of Thought" (vCoT) bezeichnet wird.

Nach Einschätzung der Google-Entwickler ist diese Fähigkeit zur robusten und fehlertoleranten Planung ein wichtiger Schritt für die Entwicklung adaptiver Robotersysteme. Das Unternehmen arbeitet bereits seit einiger Zeit an der Verwendung von großen Sprachmodellen und multimodalen Modellen in der Robotik, zum Beispiel mit dem Robotic Transformer.

Empfehlung

Erst im Sommer demonstrierte ein Team von Google Deepmind, wie Roboter mithilfe des großen Kontextfensters von Gemini 1.5 Pro in komplexen Umgebungen navigieren können. In einer Demonstration zeigte das Unternehmen, wie die Roboter durch unbekannte Umgebungen allein durch menschliche Anweisungen, Videoanleitungen und LLM-Schlussfolgerungen navigieren - und so etwa zu Orten zurückfinden können, die ihnen zuvor gezeigt wurden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google Labs demonstriert neue Interaktionsmöglichkeiten von Gemini 2.0, das visuelle und sprachliche Verarbeitung kombiniert. Nutzer können durch Antippen und Textprompts Bilder verändern, etwa Lichtschalter betätigen oder Autotüren öffnen.
  • Gemini 2.0 erkennt Ursache-Wirkungs-Zusammenhänge und kann Handlungsabläufe visuell planen. Das macht es zu einem vielversprechenden Werkzeug für die Robotik, um komplexe Navigationsanweisungen zu verstehen und umzusetzen.
  • Google arbeitet bereits an der Verwendung von großen Sprachmodellen und multimodalen Modellen wie Gemini in der Robotik. Im Sommer zeigte Deepmind, wie Roboter mithilfe von Gemini 1.5 Pro durch menschliche Anweisungen, Videos und LLM-Schlussfolgerungen in unbekannten Umgebungen navigieren können.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!