Abseits der großen Such- und Modell-Ankündigungen präsentierte Google auf der I/O 2025 zahlreiche Neuerungen für Kreative, Entwickler und den Alltag – von KI-Video- und Bildgeneratoren über neue XR-Plattformen bis hin zu Agenten-Tools und Lernangeboten.
Mit Veo 3 stellte Google ein neues KI-Video-Generatormodell vor, das erstmals Videos mit nativen Tonspuren – inklusive Hintergrundgeräuschen und Dialogen – erzeugen kann. Damit hebt sich Veo 3 insbesondere von Konkurrenzangeboten wie OpenAIs Sora ab, das bislang keine Audiounterstützung bietet. Veo 3 ist derzeit für US-Nutzer des Ultra-Abos sowie für Unternehmenskunden auf Vertex AI verfügbar.
Parallel dazu wurde Imagen 4 präsentiert, ein Bildgenerator mit verbesserter Detailgenauigkeit, besserer Typografie und Unterstützung für verschiedene Formate. Beide Modelle kommen in mehreren Google-Produkten zum Einsatz, darunter Gemini-App, Workspace, Whisk und Flow – ein neues KI-Filmmaking-Tool, das komplexe Clips, Szenen und ganze Filme mit KI-Unterstützung erzeugt. Flow vereint Funktionen wie Kamera- und Perspektivsteuerung, Asset-Management und die Integration von eigenen oder KI-generierten Inhalten.
Lyria 2, Googles KI-Modell für Musikkomposition, wurde für Musiker und Produzenten unter anderem über YouTube Shorts und Vertex AI geöffnet.
AI Ultra und Pro: Neue Abonnements für Power-User
Mit Google AI Ultra führt das Unternehmen ein neues, hochpreisiges Abo für 249,99 US-Dollar pro Monat ein. Es bietet unter anderem höchsten Zugriff auf alle KI-Modelle, Deep Research, Video- und Bildgenerierung mit Veo 3 und Imagen 4, Agentenfunktionen (Project Mariner), YouTube Premium und 30 TB Speicherplatz.
Die Gemini-App erhält mit „Gemini Live“ ein Feature, das Kamera- und Screensharing ermöglicht, um in Echtzeit Hilfe zu erhalten – etwa beim Lösen von Problemen oder bei der Organisation von Events. Neu ist auch die Integration von Gemini in Chrome, sodass Nutzer Webseiteninhalte direkt KI-gestützt analysieren und zusammenfassen lassen können.
Für Google Meet wird eine KI-gestützte Echtzeitübersetzung eingeführt, die Tonfall und Ausdruck der Sprecher imitiert. Zunächst steht die Funktion für Englisch und Spanisch in den Pro- und Ultra-Abos bereit, weitere Sprachen sollen folgen.
Die personalisierten Smart Replies in Gmail nutzen nun die Nutzerdaten aus E-Mails und Drive, um Antworten im persönlichen Stil zu generieren. Die Funktion ist optional und setzt die explizite Zustimmung des Nutzers voraus.
Entwicklertools: Gemini API, neue Agenten und offene Modelle
Für Entwickler wurden zahlreiche neue Tools vorgestellt: Die Gemini API unterstützt jetzt erweiterte Funktionen wie Computersteuerung (Project Mariner), native Audioausgabe, asynchrones Functions-Calling und das Model Context Protocol (MCP) für die Integration externer Tools. Neue Modelle wie Gemma 3n (leichtgewichtig, multimodal, für mobile Geräte), MedGemma (für medizinische Anwendungen) und SignGemma (Gebärdensprache) erweitern das Portfolio.
Im Bereich Coding stehen mit Gemini Code Assist, dem asynchronen Coding-Agent Jules und dem UI-Generator Stitch neue Werkzeuge bereit, die den Entwicklungsprozess automatisieren und beschleunigen.
Android XR und SynthID
Mit dem SynthID Detector startet Google ein Portal, das KI-generierte Inhalte – darunter Bilder, Texte, Audio und Videos – anhand unsichtbarer Wasserzeichen identifiziert. Die Technologie soll helfen, Falschinformationen zu verhindern und medienübergreifende Transparenz zu schaffen. Über 10 Milliarden Inhalte wurden laut Google bereits mit SynthID markiert.
Mit Android XR präsentierte Google eine neue Plattform für Augmented- und Mixed-Reality-Geräte. Die Integration von Gemini ermöglicht assistive Funktionen direkt in XR-Brillen und Headsets, etwa Live-Übersetzung, Navigation, Messaging und die Analyse der Umgebung aus Nutzersicht. Erste Partnerschaften bestehen mit Brillenmarken wie Gentle Monster und Warby Parker. Für Entwickler wird später im Jahr ein SDK bereitgestellt.