Google Gemini mit Vision startet: Live Bild- und Videoanalyse mit KI

Update vom 7. April 2025:

Die im März angekündigte Kamera- und Bildschirmfreigabe für Gemini Live steht ab sofort zur Verfügung. Laut Google erhalten zunächst Gemini-Advanced-Abonnenten mit kompatiblen Android-Geräten Zugriff auf die neue Funktion. Zudem rollt Google das Update für alle Nutzerinnen und Nutzer der Gemini-App auf Pixel-9- sowie Samsung-S25-Smartphones aus.

Mit der neuen Funktion sollen Anwender visuelle Inhalte auf ihrem Smartphone-Display oder vor der Kamera in Echtzeit mit Gemini besprechen können. Als mögliche Anwendungsfälle nennt Google etwa Stylingtipps, technischen Support oder kreative Beratung beim Einrichten. Das folgende Beispiel zeigt den Einsatz von Gemini Live, um einen Fehler an einem Google Nest Gerät zu finden.

Ursprünglicher Artikel vom 3. März 2025:

Google Gemini mit Vision soll im März starten: Live-Videoanalyse per KI

Google bringt Live-Videoanalyse für seinen Gemini-Assistenten. Das gab das Unternehmen im Rahmen des Mobile World Congress bekannt.

Google stellt auf dem Mobile World Congress (MWC) in Barcelona KI-Funktionen für seinen Gemini-Assistenten vor. Wie das Unternehmen bekannt gab, werden Abonnenten des Google One AI Premium Plans für Gemini Advanced noch in diesem Monat Zugriff auf Live-Video- und Screen-Sharing-Funktionen erhalten.

Gemini Live erhält zwei wesentliche Neuerungen: Zum einen die Möglichkeit, Live-Videos zu analysieren, zum anderen eine Screen-Sharing-Funktion. Mit beiden Funktionen können Nutzerinnen und Nutzer visuelle Inhalte in Echtzeit mit dem KI-Assistenten teilen - bei Live-Video über Kamerabilder von außen, bei Screen-Sharing über den eigenen Smartphone-Bildschirm, um Inhalte darauf kommentieren zu lassen.

Die neuen Funktionen sind zunächst nur für Android-Geräte verfügbar und unterstützen mehrere Sprachen. Auf dem MWC zeigt Google die Integration dieser Funktionen auf Partnergeräten verschiedener Android-Hersteller.

Empfehlung

KI in der Praxis

OpenAIs neues KI-Modell "Orion" zeigt angeblich kaum Verbesserungen gegenüber GPT-4

KI-Assistenten kommen in der echten Welt an

Die Erweiterung um visuelle Funktionen ist ein wichtiger Schritt in der Entwicklung von KI-Assistenten, die zunehmend multimodal agieren und mit der realen Welt interagieren sollen.

Googles Ziel für 2025 ist "Project Astra", ein universeller multimodaler KI-Assistent, der Text-, Video- und Audiodaten in Echtzeit verarbeiten und in einem Gesprächskontext von bis zu zehn Minuten speichern kann. Astra soll auch Google Search, Lens und Maps nutzen können.

Es ist nicht bekannt, ob Google tatsächlich die Veröffentlichung von Astra plant oder, was wahrscheinlicher erscheint, ob die für Astra vorgestellten Funktionen in Gemini integriert werden.

Mit Gemini Live positioniert sich Google gegen den Konkurrenten OpenAI und dessen ChatGPT: Der Advanced Voice Mode von ChatGPT unterstützt seit Dezember Live- und Screen-Sharing.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Google Gemini mit Vision startet: Live Bild- und Videoanalyse mit KI

Google Gemini mit Vision soll im März starten: Live-Videoanalyse per KI

OpenAIs neues KI-Modell "Orion" zeigt angeblich kaum Verbesserungen gegenüber GPT-4

KI-Assistenten kommen in der echten Welt an

Google-KI verdrängt Journalismus: Italienische Verleger wollen vor Gericht ziehen

"Google Maps Grounding": Google lässt seine Gemini-Modelle live mit Google Maps sprechen

1,3 Billiarden Token im Monat: Googles Rekord-KI-Verbrauch ist viel Augenwischerei

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

OpenAI: GPT-5 soll deutlich weniger politisch voreingenommen sein

Google Gemini mit Vision startet: Live Bild- und Videoanalyse mit KI

Google Gemini mit Vision soll im März starten: Live-Videoanalyse per KI

KI-Assistenten kommen in der echten Welt an

Artikel teilen

Bankverbindung