Googles Entwicklermesse ist auch 2024 eine KI-Show. Das hier sind die wichtigsten Ankündigungen.
Dieser Artikel wird noch aktualisiert. Womöglich werden es 5.249 News.
Google Gemini 1.5 und Gemini Flash
Google CEO Sundar Pichai hat auf der Entwicklerkonferenz Google I/O angekündigt, dass Gemini 1.5 Pro das Kontextfenster von einer auf zwei Millionen Token erhalten wird. Zudem ist das Modell ab sofort per API für alle Interessierten verfügbar.
Mit Gemini Flash stellte Google ein neues Modell vor. Es ist für Geschwindigkeit und Effizienz optimiert und eignet sich für Zusammenfassungen, Chatanwendungen, Bild- und Videountertitel sowie die Datenextraktion aus langen Dokumenten.
Laut Demis Hassabis, CEO von Google DeepMind, ist es leichter und kostengünstiger als Gemini Pro, aber genauso leistungsfähig. Erreicht wurde dies durch "Destillation" - die Übertragung der Hauptfunktionen von Pro auf das kleinere Modell. Gemini 1.5 Flash verfügt über die gleichen multimodalen Fähigkeiten und ein Kontextfenster mit einer Million Token.
Beide Modelle sind jetzt in Googles AI Studio und Vertex AI als öffentliche Vorschau verfügbar. Zur Open Source Gemma-Familie kommen das Vision-Language-Modell PaliGemma und das leistungsstarke Gemma 2 mit 27 Milliarden Parametern hinzu. Google startet außerdem den ersten Gemini API Developer-Wettbewerb mit einem elektrischen DeLorean als Hauptpreis.
Neue Funktionen für Gemini in Google Workspace
Google hat neue Funktionen für Gemini in Google Workspace angekündigt. Laut dem Google Workspace-Blog verwendet Gemini nun Gemini 1.5 Pro in der Workspace-Seitenleiste für ausführlichere Antworten.
Die Gmail-Anwendung erhält Funktionen wie E-Mail-Zusammenfassungen, kontextbezogene Antwortvorschläge und Gmail Q&A. Außerdem wird die Funktion "Schreibhilfe" in Gmail und Docs für Spanisch und Portugiesisch auf dem Desktop unterstützt.
Die neuen Funktionen stehen den Nutzern von Workspace Labs und Alpha zur Verfügung und werden im nächsten Monat für Unternehmen und Verbraucher über Gemini for Workspace Add-ons und den Google One AI Premium Plan verfügbar sein.
Neu ist auch die Option, einen virtuellen Teamkollegen mit eigenem Workspace-Konto einzurichten. Dieser Teamkollege kann für spezifische Aufgaben konfiguriert werden, wie z.B. Projekte zu überwachen und zu verfolgen, Informationen zu organisieren, Kontext bereitzustellen, Trends aus Datenanalysen zu erkennen und bei der Teamzusammenarbeit mitzuwirken. In Google Chat kann der virtuelle Teamkollege allen relevanten Räumen beitreten und Fragen auf Basis von Konversationsverläufen, Gmail-Threads und allem anderen beantworten, auf das er Zugriff hat. Laut Aparna Pappu, Vizepräsidentin und GM von Workspace, handelt es sich derzeit jedoch nur um eine technische Demonstration. Google müsse noch viel daran arbeiten, wie solche agentiven Erfahrungen in Workspace integriert werden können, einschließlich der Möglichkeit für Drittanbieter, eigene Versionen zu erstellen.
Gemini Live und personalisierte Chatbots "Gems"
Neue Interaktionsmöglichkeiten mit Gemini sind der Chat in Google Messages und ein mobiles Gesprächserlebnis namens Live mit natürlich klingender Sprachtechnologie. Gemini Advanced-Abonnenten können bald personalisierte Versionen von Gemini namens Gems erstellen, die als Fitnesstrainer, Programmierpartner oder Schreibtrainer fungieren können - Googles Alternative zu GPTs. Gems lassen sich einfach einrichten, indem man beschreibt, was sie tun und wie sie reagieren sollen.
Google SGE rollt weiter aus
Die von Gemini generierten Zusammenfassungen, die jetzt "AI Overviews" heißen, sollen noch in dieser Woche für alle Nutzer in den USA in der Google-Suche verfügbar sein, ebenso wie komplexere Suchanfragen, die direkt mehrere Fragen umfassen. Darüber hinaus sollen Nutzer bald auch Suchanfragen zu Videos stellen können. Weitere Länder werden in Kürze folgen.
Wer sich für Search Labs anmeldet, erhält Zugang zu weiteren KI-Funktionen wie der Vereinfachung von Sprache, komplexen Suchanfragen, Essens- und Reiseplanung sowie der Videosuche. Alle neuen Funktionen basieren auf dem Gemini-Modell, das für die Suche angepasst wurde.
Project Astra
Astra ist Googles Vision eines multimodalen KI-Assistenten für den Alltag. Er kann Text, Video und Audio in Echtzeit verarbeiten. In einem Video zeigte Google, wie Astra Lautsprecher, Buntstifte und andere Objekte auf Sprachbefehl identifizierte.
Dabei konnte Astra Fragen zu den Objekten beantworten, sie erklären oder kreativen Output zu den Objekten generieren. Astra konnte auch Diagramme oder Programmcode auf einem Whiteboard erkennen und erklären.
Astra lief auf einem Smartphone und auf einem Prototyp einer Tech-Brille mit integrierter Videokamera. Einige dieser Funktionen sollen noch in diesem Jahr in Google-Produkte wie die Gemini-App integriert werden.
KI für Bild, Video und Musik: Imagen 3, Veo, Music AI
Google hat auf der I/O-Konferenz auch seine neuesten KI-Modelle für die Erstellung von Medieninhalten vorgestellt: Veo für die Erstellung von Videos in 1080p-Qualität und Imagen 3 für die Generierung von Bildern aus Textbeschreibungen.
Veo soll über ein fortgeschrittenes Verständnis natürlicher Sprache und visueller Semantik verfügen und Videos mit einer Länge von über einer Minute produzieren können. Veo wird ab sofort für ausgewählte Creators in Googles VideoFX-Tool verfügbar sein und auch in YouTube Shorts und andere Produkte integriert werden.
Imagen 3 verspricht fotorealistische, lebensechte Bilder mit weniger Artefakten. Laut Google ist es das bisher leistungsstärkste selbst entwickelte Text-zu-Bild-Modell. Es soll über Google ImageFX verfügbar sein.
Google testet außerdem mit Musikern wie Wyclef Jean und Bjorn die Music AI Sandbox, eine Reihe von Tools, die bei der Erstellung von Songs und Beats helfen. Sie ist Teil des MusicFX-Experiments.
Die Experimente sind in 110 Ländern und 37 Sprachen verfügbar. Google arbeitet mit Künstlern zusammen, um die Tools verantwortungsvoll weiterzuentwickeln. Alle erstellten Inhalte werden mit der SynthID digital gekennzeichnet. Die Experimente können von autorisierten Nutzern auf labs.google ausprobiert werden.
KI-basierter Foto-Chatbot
Google kündigt Ask Photos with Gemini an, einen Chatbot mit künstlicher Intelligenz für die Google Photos-Anwendung. Die Funktion wird in den kommenden Monaten zunächst für Google One-Abonnenten in den USA verfügbar sein.
Mit Ask Photos können Nutzer mithilfe von Gemini bestimmte Bilder in ihrer Galerie finden, indem sie Fragen wie "Zeig mir das beste Foto von jedem Nationalpark, den ich besucht habe" stellen. Die KI berücksichtigt dabei GPS-Informationen und trifft selbstständig Entscheidungen, welche Bilder es auswählt. Die Nutzer können Gemini Feedback geben, welche Bilder sie bevorzugen.
Ask Photos kann auch die besten Fotos eines Urlaubs finden und Bildunterschriften für soziale Medien generieren. Die Anfragen werden nicht gespeichert, sondern in der Cloud verarbeitet. Google betont, dass der Datenschutz gewahrt bleibt. Die Funktion ist experimentell und steht zunächst zahlenden Nutzern zur Verfügung.
Axion und Tensor
Google stellte auch den Trillium-Chip (TPU v6) für KI-Rechenzentren vor, der fast fünfmal schneller ist als die Vorgängerversion. Laut CEO Sundar Pichai ist die Nachfrage nach KI-Chips in den letzten sechs Jahren um den Faktor 1 Million gestiegen. Googles maßgeschneiderte Chips sind eine der wenigen Alternativen zu den marktbeherrschenden Prozessoren von Nvidia.
Der Trillium-Chip bietet 4,7-mal mehr Rechenleistung und ist 67 Prozent energieeffizienter als sein Vorgänger TPU v5e. Die Chips werden in Pods mit 256 Chips eingesetzt, die auf Hunderte von Pods skaliert werden können. Der neue Chip wird Ende 2024 für Google Cloud-Kunden verfügbar sein.
Mehr KI für Android
Google integriert seine KI-Technologien direkt in das Android-Betriebssystem. Mit Circle to Search können Schüler und Studierende nun per Geste Hilfe bei den Hausaufgaben suchen und erhalten Schritt-für-Schritt-Anleitungen für Physik- und Matheaufgaben.
Der in Android integrierte Assistent Gemini soll den Kontext besser verstehen und kann bald in mehr Apps eingesetzt werden, etwa um generierte Bilder in Nachrichten einzufügen oder Informationen in YouTube-Videos und PDFs zu finden.
So können von Gemini generierte Bilder per Drag-and-Drop in Anwendungen wie Gmail oder Google Messages eingefügt werden. Bei YouTube-Videos kann mit der Funktion "Ask this video" gezielt nach Informationen in einem Video gesucht werden. Nutzer von Gemini Advanced können mit "Ask this PDF" schnell Antworten in PDF-Dokumenten finden, ohne mehrere Seiten durchsuchen zu müssen.
Noch in diesem Jahr soll Gemini Nano mit Multimodalität auf Pixel-Geräten erscheinen. Dieses On-Device-Modell soll neben Text auch Bild, Ton und Sprache verstehen. In Talkback soll es klarere Bildbeschreibungen liefern und vor Telefonbetrug warnen. Weitere KI-Funktionen für Android sind in Planung. Entwickler können ab sofort mit Gemini Nano und Gemini in Android Studio arbeiten.