Veo 3, Googles KI-Modell zur Videogenerierung mit Audioausgabe, ist ab sofort über die Gemini-API verfügbar.
Das multimodale Modell kann aus Texteingaben hochauflösende Videos mit synchronisierter Tonspur erzeugen. Es ist das erste Videomodell des Unternehmens, das Bild und Ton simultan erzeugt – einschließlich Dialogen, Musik und Soundeffekten.
Die neue API-Integration richtet sich insbesondere an Entwickler, die das Modell in eigene Anwendungen einbinden oder produktionsnahe Prototypen erstellen möchten. Die API unterstützt zunächst nur Text-zu-Video. Die kürzlich für die Gemini-App ausgerollte Bild-zu-Video-Funktion soll demnächst folgen.
Das Google AI Studio bietet eine SDK-Vorlage und eine interaktive Starter-App, um Veo 3 schnell und prototypisch in Projekte zu integrieren. Entwickler benötigen dafür ein aktiviertes Google Cloud-Projekt mit Abrechnung.
Veo 3 war bereits zuvor über Produkte wie die Gemini App, Flow und Vertex AI nutzbar und wurde laut Google dort millionenfach genutzt.
Google nimmt 0,75 US-Dollar pro Sekunde
Der Zugriff auf Veo 3 über die Gemini API erfolgt im kostenpflichtigen "Paid Tier" von Google Cloud. Der Preis liegt bei 0,75 US-Dollar pro Sekunde für Video- und Audioausgabe in 720p 24fps mit 16:9-Format - das ist 25 Cent teurer als Veo 2 ohne Sound. Die schnellere und günstigere Variante "Veo 3 Fast" aus dem Gemini-Chat ist angekündigt, aber bisher nicht in der API verfügbar.
Der typische Acht-Sekunden-Clip liegt demnach bei sechs US-Dollar, ein Fünf-Minuten-Clip kostet 225 US-Dollar. Zu diesem Preis muss man jedoch berücksichtigen, dass mit dem Videomodell schnell viel Ausschuss generiert wird, bis man ein passendes Video erhält.
Kalkuliert man mit einem zehnfachen Ausschuss, muss man für fünf Minuten gutes Material womöglich 50 Minuten generieren. Das würde Kosten von etwa 2250 US-Dollar verursachen. Dennoch könnte die Generierung in einigen Fällen günstiger sein als klassische Videoproduktion – so dürfte auch Google kalkulieren.
Google zeigt Praxisbeispiele
Das Unternehmen Cartwheel nutzt Veo 3, um aus 2D-Videos realistische 3D-Charakteranimationen zu erzeugen. Die mithilfe von Veo generierten Bewegungen werden auf geriggte Modelle übertragen und für Kundenprojekte genutzt.
Das Spielestudio Volley verwendet Veo 3 zur Erstellung von Cutscenes für ein Rollenspiel mit dem Titel "Wit's End". Durch Veo sollen Entwickler visuelle Storyelemente schneller umsetzen und iterieren.