Google zeigt beeindruckende Bild-Text-Interaktion mit Gemini 2.0
Kurz & Knapp
- Google Labs demonstriert neue Interaktionsmöglichkeiten von Gemini 2.0, das visuelle und sprachliche Verarbeitung kombiniert. Nutzer können durch Antippen und Textprompts Bilder verändern, etwa Lichtschalter betätigen oder Autotüren öffnen.
- Gemini 2.0 erkennt Ursache-Wirkungs-Zusammenhänge und kann Handlungsabläufe visuell planen. Das macht es zu einem vielversprechenden Werkzeug für die Robotik, um komplexe Navigationsanweisungen zu verstehen und umzusetzen.
- Google arbeitet bereits an der Verwendung von großen Sprachmodellen und multimodalen Modellen wie Gemini in der Robotik. Im Sommer zeigte Deepmind, wie Roboter mithilfe von Gemini 1.5 Pro durch menschliche Anweisungen, Videos und LLM-Schlussfolgerungen in unbekannten Umgebungen navigieren können.
Google Labs zeigt neue Interaktionsmöglichkeiten von Gemini 2.0, die insbesondere für die Robotik relevant sein könnten. Die Kombination von visueller und sprachlicher Verarbeitung ermöglicht neue Anwendungen.
Das Team von Google Labs demonstrierte auf der X die neuen Möglichkeiten des neuen multimodalen Gemini 2.0 Flash. In Videos wird gezeigt, dass Nutzer mit Gemini 2.0 nun durch einfaches Antippen und Textprompts mit Bildern interagieren können.
In den Demonstrationen wird gezeigt, wie Gemini 2.0 z.B. aufgrund eines Bildausschnitts mit einem Lichtschalter und der Anweisung, diesen zu betätigen, die Beleuchtung in der Szene anpassen kann. Dabei versteht das System sowohl die visuellen Elemente als auch die sprachlichen Anweisungen.
One more thing....@ameliovr and team have been experimenting with Gemini 2.0's native image out capabilities to
🧭 navigate
🧑🎨 modify
🫳 interact
⚙️simulate
inside images using tap & prompt. eg turning on the lights if you tap the lightswitch 💡
a 🧵 pic.twitter.com/qI1LN5iAU6
— Simon (@tokumin) December 12, 2024
In einem anderen Beispiel markiert ein Benutzer den Türgriff eines Autos, und Gemini 2.0 generiert daraufhin ein Bild des Autos mit geöffneter Tür. Beeindruckend ist nicht die Art der Interaktion, sondern die Konsistenz der Ergebnisse. Der Inhalt des Raumes oder das Aussehen des Autos ändern sich gegenüber dem Originalbild kaum, nur die gewünschten Veränderungen werden vorgenommen.
Native image output with Gemini 2.0 Flash is what I’ve always wanted from an image model, the consistency when iterating is so magical. All without any complex orchestration or develop tooling.pic.twitter.com/VMNUW84gyo
— Logan Kilpatrick (@OfficialLoganK) December 15, 2024
Das macht Gemini 2.0 zu einem interessanten Werkzeug für Kreative - aber auch zu einem vielversprechenden System für weitere Anwendungen, wie Google erklärt.
Visuelle Planung für Robotersysteme
Eine besondere Stärke von Gemini 2.0 liegt in der visuellen Ursache-Wirkungs-Erkennung. Das System kann Handlungsabläufe visuell planen und bewerten, was insbesondere für die Robotik relevant sein könnte. Die Kombination von Bildverstehen und Sprachverarbeitung ermöglicht es dem System zudem, komplexe Navigationsanweisungen zu verstehen und umzusetzen. Dazu wird ein Ansatz verwendet, der als "Visual Chain of Thought" (vCoT) bezeichnet wird.
Nach Einschätzung der Google-Entwickler ist diese Fähigkeit zur robusten und fehlertoleranten Planung ein wichtiger Schritt für die Entwicklung adaptiver Robotersysteme. Das Unternehmen arbeitet bereits seit einiger Zeit an der Verwendung von großen Sprachmodellen und multimodalen Modellen in der Robotik, zum Beispiel mit dem Robotic Transformer.
Erst im Sommer demonstrierte ein Team von Google Deepmind, wie Roboter mithilfe des großen Kontextfensters von Gemini 1.5 Pro in komplexen Umgebungen navigieren können. In einer Demonstration zeigte das Unternehmen, wie die Roboter durch unbekannte Umgebungen allein durch menschliche Anweisungen, Videoanleitungen und LLM-Schlussfolgerungen navigieren - und so etwa zu Orten zurückfinden können, die ihnen zuvor gezeigt wurden.
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.