Veo 2 und Imagen 3: Google stellt neues KI-Video- und Bildmodell vor

Mit Veo 2 und Imagen 3 präsentiert Google zwei neue KI-Modelle, die laut menschlicher Bewertung Spitzenleistungen in Video- und Bildgenerierung erreichen sollen.

Veo 2 kann laut Google Videos in 4K-Auflösung erstellen und versteht cinematografische Anweisungen wie Linsentypen oder Kameraeffekte. Die Videolänge kann auf "mehrere Minuten" ausgedehnt werden.

Ein wichtiger Fortschritt sei die Reduzierung von Halluzinationen – also unerwünschten Details wie zusätzliche Finger oder unerwartete Objekte. Auch bei der Physik soll Veo 2 Fortschritte gemacht haben.

In direkten Vergleichstests mit menschlichen Bewertern wurden 1003 Prompts aus dem MovieGenBench-Datensatz von Meta evaluiert. Die Tests erfolgten mit Videos in 720p-Auflösung, wobei Veo 2 acht Sekunden lange Clips erzeugte. Hier schneidet Veo 2 in der Gesamtbewertung und beim Prompt-Following besser ab als der Wettbewerb, auch im Vergleich zu OpenAIs Sora Turbo.

Zwei Balkendiagramme: Vergleich der Präferenz von Veo gegenüber anderen KI-Videomodellen (Meta, Kling, Minimax, Sora). Grün: Veo bevorzugt; Weiß: unentschieden; Rosa: anderes Modell bevorzugt. Links: Gesamtpräferenz, rechts: Prompt-Adhärenz. — Die Vergleichsstudie zeigt, wie oft die generierten Videos von Veo gegenüber den Videos der anderen Modelle bevorzugt wurden. Die grünen Balken repräsentieren, wie oft Veo als besser bewertet wurde als das jeweilige Modell in der Spalte. | Bild: Google Deepmind

Google räumt ein, dass es trotz der Fortschritte eine Herausforderung bleibe, durchgehend realistische und dynamische Videos zu erzeugen. Besonders bei komplexen Szenen oder Bewegungsabläufen gebe es noch Verbesserungspotenzial.

Veo 2 wird zunächst nur über ausgewählte Produkte wie VideoFX, YouTube und die Vertex-AI-Plattform verfügbar sein. Ab 2025 soll das System auch in YouTube-Shorts und weiteren Produkten zum Einsatz kommen. Alle generierten Videos werden mit einem unsichtbaren SynthID-Wasserzeichen als KI-generiert gekennzeichnet.

Imagen 3 startet in mehr als 100 Ländern

Parallel dazu stellt Google eine verbesserte Version seines Bildgenerierungsmodells vor. Imagen 3 soll nach Unternehmensangaben dank mehrerer technischer Verbesserungen eine bessere Farbbalance und lebendigere Bilder erzeugen können.

Das neue Modell wurde laut Google auch bei der Darstellung verschiedener Kunststile optimiert – von Fotorealismus über Impressionismus bis zu abstrakter Kunst und Anime. Zudem verspricht der Konzern eine verbesserte Detailgenauigkeit mit reichhaltigeren Texturen und feineren Details.

Das neue Imagen 3 wird ab sofort global über Googles ImageFX-Tool in mehr als 100 Ländern ausgerollt. Imagen 3 ist auch über Googles Gemini-Chat verfügbar, wobei sich Google nicht äußert, ob und wann hier das aktualisierte Modell verfügbar sein wird.