Demis Hassabis, CEO von Google Deepmind, erwartet in den nächsten zwölf Monaten Fortschritte bei der Konvergenz multimodaler Modelle, interaktiven Videowelten und verlässlichen KI-Agenten. Besonders die Multimodalität von Gemini ermögliche neue Anwendungen, erklärte Hassabis auf dem Axios AI+ Summit. Als Beispiel nannte er eine Szene aus dem Film "Fight Club", in der die KI das Ablegen eines Rings philosophisch als Symbol für den Verzicht auf den Alltag deutete. Auch das neueste Bildmodell von Google nutzt diese multimodalen Fähigkeiten, um visuelle Inhalte präzise zu verstehen und etwa Infografiken zu erstellen.
Zudem arbeitet Google Deepmind weiter an "Weltmodellen" wie Genie 3, die interaktive, begehbare Videoräume erzeugen. Hassabis prognostiziert auch, dass KI-Agenten in einem Jahr "nahe dran" sein werden, komplexere Aufgaben verlässlich und eigenständig zu erledigen. Ziel sei ein universeller Assistent, der Nutzer über verschiedene Geräte hinweg im Alltag begleitet.
