Google hat eine neue Streaming-API für sein großes multimodales Modell Gemini 2.0 vorgestellt, die eine Echtzeitkommunikation mit Audio, Video und Text ermöglicht. Der Entwickler Simon Willison demonstriert die Fähigkeiten in einem einminütigen Video auf seinem iPhone. Darin führt er ein Gespräch mit Gemini 2.0 über Dinge, die das Modell durch die Kamera "sehen" kann. Die API ist bereits als Vorschauversion verfügbar und lässt sich mit etwas technischem Know-how ausprobieren. Auch OpenAI stellte eine Funktion für ChatGPT vor, bei der das KI-Modell in Echtzeit über Inhalte in Smartphone-Videos sprechen kann.

Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!