Google hat eine neue Streaming-API für sein großes multimodales Modell Gemini 2.0 vorgestellt, die eine Echtzeitkommunikation mit Audio, Video und Text ermöglicht. Der Entwickler Simon Willison demonstriert die Fähigkeiten in einem einminütigen Video auf seinem iPhone. Darin führt er ein Gespräch mit Gemini 2.0 über Dinge, die das Modell durch die Kamera "sehen" kann. Die API ist bereits als Vorschauversion verfügbar und lässt sich mit etwas technischem Know-how ausprobieren. Auch OpenAI stellte eine Funktion für ChatGPT vor, bei der das KI-Modell in Echtzeit über Inhalte in Smartphone-Videos sprechen kann.
Anzeige