Google verbessert Gemini-Audiomodelle für realistischere KI-Stimmen
Google hat ein Update für Gemini 2.5 Flash Native Audio veröffentlicht, das Sprachassistenten verbessern soll. Das Modell kann nun komplexe Arbeitsabläufe besser bewältigen, Nutzeranweisungen präziser umsetzen und natürlichere Gespräche führen. Die Befolgung von Entwickleranweisungen stieg von 84 auf 90 Prozent. Auch die Gesprächsqualität in mehrstufigen Unterhaltungen wurde verbessert.
Laut Google erreicht das neue Audiomodell bei Funktionsaufrufen 71,5 Prozent Genauigkeit auf dem ComplexFuncBench-Benchmark und liegt damit vor OpenAIs gpt-realtime (66,5 Prozent); allerdings wurde hier wohl nicht gegen die neueste Realtime-Version getestet, die erst gestern erschien.
Das Update ist in Google AI Studio, Vertex AI, Gemini Live und Search Live verfügbar. Google-Cloud-Kunden nutzen die Technologie bereits. Entwickler können das Modell über die Gemini-API testen.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren