Inhalt
summary Zusammenfassung
Update
  • Veo 3 Fast und Bild-zu-Video in der API

Update vom 7. September 2025:

Anzeige

Google hat die API-Preise für seine Videomodelle Veo 3 und Veo 3 Fast teils um mehr als die Hälfte gesenkt. Die Kosten für die Standardversion Veo 3 mit Ton fallen von 0,75 auf 0,40 US-Dollar pro Sekunde. Die schnellere Variante Veo 3 Fast kostet für Video mit Ton nun 0,15 statt der bisherigen 0,40 US-Dollar pro Sekunde. Für die reine Videogenerierung ohne Ton fallen bei Veo 3 jetzt 0,20 Dollar und bei Veo 3 Fast 0,10 Dollar an.

Modell Funktion Alter Preis (pro Sekunde) Neuer Preis (pro Sekunde)
Veo 3 Video + Ton 0,75 $ pro Sekunde 0,40 $ pro Sekunde
Veo 3 Nur Video 0,50 $ pro Sekunde 0,20 $ pro Sekunde
Veo 3 Fast Video + Ton 0,40 $ pro Sekunde 0,15 $ pro Sekunde
Veo 3 Fast Nur Video 0,25 $ pro Sekunde 0,10 $ pro Sekunde

Beide Modelle erzeugen aus Text- oder Bildeingaben Videos in 720p- oder 1080p-Auflösung, wahlweise mit synchronisiertem Ton. Veo 3 ist auf hohe Bildqualität ausgelegt, während Veo 3 Fast eine schnellere Verarbeitung bietet. Die Preise gelten für die Nutzung über die API.

Update vom 31. Juli 2025:

Anzeige
Anzeige

Google bringt neue Bild-zu-Video-Funktion für Veo 3 und schnellere Variante Veo 3 Fast

Google bringt die "Fast"-Version von Veo 3 in die API. Laut Google ist Veo 3 Fast eine Version, die speziell auf Geschwindigkeit und Kosteneffizienz optimiert wurde. Sie richtet sich an Entwickler, die schnell iterieren oder Inhalte in großem Umfang erzeugen müssen – etwa in der programmatischen Werbung oder bei schnellen A/B-Tests. Dabei wird weiterhin eine "hohe Qualität" versprochen.

Beide Modelle unterstützen dieselben Eingabeformate (Text und Bild), erzeugen Videos mit 720p bei 24 fps, und liefern standardmäßig acht Sekunden lange Clips mit einem Video pro Anfrage. Sie teilen sich auch dieselben technischen Parameter wie maximal 1.024 Tokens pro Texteingabe und native Audiogenerierung.

Das Standard-Veo 3 ist wohl auf maximale Bildqualität ausgelegt und deutlich teurer. Veo 3 Fast kostet 0,40 US-Dollar pro Sekunde Videoausgabe mit Ton. Veo 3 kostet 0,75 US-Dollar pro Sekunde und ist somit 87,5 Prozent teurer.

Ein typischer Acht-Sekunden-Clip kostet mit Veo 3 Fast 3,20 US-Dollar, bei Veo 3 werden 6 US-Dollar fällig. Für einen fünfminütigen Clip summieren sich die Kosten auf 120 US-Dollar bei Veo 3 Fast und 225 US-Dollar bei Veo 3. Wo genau die qualitativen Unterschiede zwischen den Modellen liegen, geht aus Googles Beschreibung nicht hervor.

Bild wird zu Video

Die neue Bild-zu-Video-Funktion steht sowohl in Veo 3 als auch in Veo 3 Fast zur Verfügung. Nutzer können ein einzelnes Bild mit einem Textprompt kombinieren, um daraus dynamische Videos mit Ton zu erzeugen. Die Funktion soll helfen, stilistische Konsistenz zu wahren. Laut Google lassen sich Bewegung, Erzählstruktur und Audio so besser über den Prompt steuern.

Empfehlung

Die Integration erfolgt über dieselbe Gemini-API wie bei den bestehenden Funktionen. Laut Google werden Videos, die aus Bildern erzeugt werden, zum selben Preis abgerechnet wie Text-zu-Video-Ausgaben des jeweiligen Modells.

Die neuen Funktionen stehen ab sofort in einer kostenpflichtigen Vorschau über die Gemini-API zur Verfügung. Entwickler können die API-Dokumentation und das Veo Cookbook nutzen, um eigene Anwendungen zu erstellen.

Artikel vom 17. Juli 2025:

Googles Video-KI Veo 3 ist jetzt über die Gemini-API verfügbar – und der Preis hat es in sich

Veo 3, Googles KI-Modell zur Videogenerierung mit Audioausgabe, ist ab sofort über die Gemini-API verfügbar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Das multimodale Modell kann aus Texteingaben hochauflösende Videos mit synchronisierter Tonspur erzeugen. Es ist das erste Videomodell des Unternehmens, das Bild und Ton simultan erzeugt – einschließlich Dialogen, Musik und Soundeffekten.

Die neue API-Integration richtet sich insbesondere an Entwickler, die das Modell in eigene Anwendungen einbinden oder produktionsnahe Prototypen erstellen möchten. Die API unterstützt zunächst nur Text-zu-Video. Die kürzlich für die Gemini-App ausgerollte Bild-zu-Video-Funktion soll demnächst folgen.

Das Google AI Studio bietet eine SDK-Vorlage und eine interaktive Starter-App, um Veo 3 schnell und prototypisch in Projekte zu integrieren. Entwickler benötigen dafür ein aktiviertes Google Cloud-Projekt mit Abrechnung.

Veo 3 war bereits zuvor über Produkte wie die Gemini App, Flow und Vertex AI nutzbar und wurde laut Google dort millionenfach genutzt.

Google nimmt 0,75 US-Dollar pro Sekunde

Der Zugriff auf Veo 3 über die Gemini API erfolgt im kostenpflichtigen "Paid Tier" von Google Cloud. Der Preis liegt bei 0,75 US-Dollar pro Sekunde für Video- und Audioausgabe in 720p 24fps mit 16:9-Format - das ist 25 Cent teurer als Veo 2 ohne Sound. Die schnellere und günstigere Variante "Veo 3 Fast" aus dem Gemini-Chat ist angekündigt, aber bisher nicht in der API verfügbar.

Der typische Acht-Sekunden-Clip liegt demnach bei sechs US-Dollar, ein Fünf-Minuten-Clip kostet 225 US-Dollar. Zu diesem Preis muss man jedoch berücksichtigen, dass mit dem Videomodell schnell viel Ausschuss generiert wird, bis man ein passendes Video erhält.

Anzeige
Anzeige

Kalkuliert man mit einem zehnfachen Ausschuss, muss man für fünf Minuten gutes Material womöglich 50 Minuten generieren. Das würde Kosten von etwa 2250 US-Dollar verursachen. Dennoch könnte die Generierung in einigen Fällen günstiger sein als klassische Videoproduktion – so dürfte auch Google kalkulieren.

Google zeigt Praxisbeispiele

Das Unternehmen Cartwheel nutzt Veo 3, um aus 2D-Videos realistische 3D-Charakteranimationen zu erzeugen. Die mithilfe von Veo generierten Bewegungen werden auf geriggte Modelle übertragen und für Kundenprojekte genutzt.

Das Spielestudio Volley verwendet Veo 3 zur Erstellung von Cutscenes für ein Rollenspiel mit dem Titel "Wit's End". Durch Veo sollen Entwickler visuelle Storyelemente schneller umsetzen und iterieren.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google stellt sein KI-Videomodell Veo 3 ab sofort über die Gemini API bereit. Veo 3 kann aus Texteingaben hochauflösende Videos mit synchronisierter Tonspur erzeugen, darunter Dialoge, Musik und Soundeffekte.
  • Die Nutzung von Veo 3 über die Gemini API kostet im "Paid Tier" 0,75 US-Dollar pro Sekunde für 720p-Videos mit Audio.
  • Entwickler können das Modell in eigene Anwendungen integrieren; das Google AI Studio stellt dafür eine SDK-Vorlage und eine Starter-App bereit.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!