Google zeigt beeindruckende Bild-Text-Interaktion mit Gemini 2.0

Google Labs zeigt neue Interaktionsmöglichkeiten von Gemini 2.0, die insbesondere für die Robotik relevant sein könnten. Die Kombination von visueller und sprachlicher Verarbeitung ermöglicht neue Anwendungen.

Das Team von Google Labs demonstrierte auf der X die neuen Möglichkeiten des neuen multimodalen Gemini 2.0 Flash. In Videos wird gezeigt, dass Nutzer mit Gemini 2.0 nun durch einfaches Antippen und Textprompts mit Bildern interagieren können.

In den Demonstrationen wird gezeigt, wie Gemini 2.0 z.B. aufgrund eines Bildausschnitts mit einem Lichtschalter und der Anweisung, diesen zu betätigen, die Beleuchtung in der Szene anpassen kann. Dabei versteht das System sowohl die visuellen Elemente als auch die sprachlichen Anweisungen.

One more thing....@ameliovr and team have been experimenting with Gemini 2.0's native image out capabilities to

🧭 navigate
🧑‍🎨 modify
🫳 interact
⚙️simulate

inside images using tap & prompt. eg turning on the lights if you tap the lightswitch 💡

a 🧵 pic.twitter.com/qI1LN5iAU6

— Simon (@tokumin) December 12, 2024

In einem anderen Beispiel markiert ein Benutzer den Türgriff eines Autos, und Gemini 2.0 generiert daraufhin ein Bild des Autos mit geöffneter Tür. Beeindruckend ist nicht die Art der Interaktion, sondern die Konsistenz der Ergebnisse. Der Inhalt des Raumes oder das Aussehen des Autos ändern sich gegenüber dem Originalbild kaum, nur die gewünschten Veränderungen werden vorgenommen.

Native image output with Gemini 2.0 Flash is what I’ve always wanted from an image model, the consistency when iterating is so magical. All without any complex orchestration or develop tooling.pic.twitter.com/VMNUW84gyo

— Logan Kilpatrick (@OfficialLoganK) December 15, 2024

Das macht Gemini 2.0 zu einem interessanten Werkzeug für Kreative - aber auch zu einem vielversprechenden System für weitere Anwendungen, wie Google erklärt.

Visuelle Planung für Robotersysteme

Eine besondere Stärke von Gemini 2.0 liegt in der visuellen Ursache-Wirkungs-Erkennung. Das System kann Handlungsabläufe visuell planen und bewerten, was insbesondere für die Robotik relevant sein könnte. Die Kombination von Bildverstehen und Sprachverarbeitung ermöglicht es dem System zudem, komplexe Navigationsanweisungen zu verstehen und umzusetzen. Dazu wird ein Ansatz verwendet, der als "Visual Chain of Thought" (vCoT) bezeichnet wird.

Nach Einschätzung der Google-Entwickler ist diese Fähigkeit zur robusten und fehlertoleranten Planung ein wichtiger Schritt für die Entwicklung adaptiver Robotersysteme. Das Unternehmen arbeitet bereits seit einiger Zeit an der Verwendung von großen Sprachmodellen und multimodalen Modellen in der Robotik, zum Beispiel mit dem Robotic Transformer.

Empfehlung

KI-Forschung

Apples CAMPHOR-Framework ebnet den Weg für lokale KI-Agenten auf Smartphones

Erst im Sommer demonstrierte ein Team von Google Deepmind, wie Roboter mithilfe des großen Kontextfensters von Gemini 1.5 Pro in komplexen Umgebungen navigieren können. In einer Demonstration zeigte das Unternehmen, wie die Roboter durch unbekannte Umgebungen allein durch menschliche Anweisungen, Videoanleitungen und LLM-Schlussfolgerungen navigieren - und so etwa zu Orten zurückfinden können, die ihnen zuvor gezeigt wurden.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Google zeigt beeindruckende Bild-Text-Interaktion mit Gemini 2.0

Visuelle Planung für Robotersysteme

Apples CAMPHOR-Framework ebnet den Weg für lokale KI-Agenten auf Smartphones

OpenAI-KI gewinnt Gold bei Informatik-Olympiade

KI-Kritiker Gary Marcus: GPT-5 ist "überfällig, überhyped und unterwältigend"

Nvidia-Forschende plädieren für mehr kleine Modelle in KI-Agenten

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Google zeigt beeindruckende Bild-Text-Interaktion mit Gemini 2.0

Visuelle Planung für Robotersysteme

Artikel teilen

Bankverbindung