Veo 2 und Imagen 3: Google stellt neues KI-Video- und Bildmodell vor

16. Dezember 2024

Google Deepmind

Mit Veo 2 und Imagen 3 präsentiert Google zwei neue KI-Modelle, die laut menschlicher Bewertung Spitzenleistungen in Video- und Bildgenerierung erreichen sollen.

Veo 2 kann laut Google Videos in 4K-Auflösung erstellen und versteht cinematografische Anweisungen wie Linsentypen oder Kameraeffekte. Die Videolänge kann auf "mehrere Minuten" ausgedehnt werden.

Ein wichtiger Fortschritt sei die Reduzierung von Halluzinationen – also unerwünschten Details wie zusätzliche Finger oder unerwartete Objekte. Auch bei der Physik soll Veo 2 Fortschritte gemacht haben.

In direkten Vergleichstests mit menschlichen Bewertern wurden 1003 Prompts aus dem MovieGenBench-Datensatz von Meta evaluiert. Die Tests erfolgten mit Videos in 720p-Auflösung, wobei Veo 2 acht Sekunden lange Clips erzeugte. Hier schneidet Veo 2 in der Gesamtbewertung und beim Prompt-Following besser ab als der Wettbewerb, auch im Vergleich zu OpenAIs Sora Turbo.

Zwei Balkendiagramme: Vergleich der Präferenz von Veo gegenüber anderen KI-Videomodellen (Meta, Kling, Minimax, Sora). Grün: Veo bevorzugt; Weiß: unentschieden; Rosa: anderes Modell bevorzugt. Links: Gesamtpräferenz, rechts: Prompt-Adhärenz. — Die Vergleichsstudie zeigt, wie oft die generierten Videos von Veo gegenüber den Videos der anderen Modelle bevorzugt wurden. Die grünen Balken repräsentieren, wie oft Veo als besser bewertet wurde als das jeweilige Modell in der Spalte. | Bild: Google Deepmind

Google räumt ein, dass es trotz der Fortschritte eine Herausforderung bleibe, durchgehend realistische und dynamische Videos zu erzeugen. Besonders bei komplexen Szenen oder Bewegungsabläufen gebe es noch Verbesserungspotenzial.

Veo 2 wird zunächst nur über ausgewählte Produkte wie VideoFX, YouTube und die Vertex-AI-Plattform verfügbar sein. Ab 2025 soll das System auch in YouTube-Shorts und weiteren Produkten zum Einsatz kommen. Alle generierten Videos werden mit einem unsichtbaren SynthID-Wasserzeichen als KI-generiert gekennzeichnet.

Imagen 3 startet in mehr als 100 Ländern

Parallel dazu stellt Google eine verbesserte Version seines Bildgenerierungsmodells vor. Imagen 3 soll nach Unternehmensangaben dank mehrerer technischer Verbesserungen eine bessere Farbbalance und lebendigere Bilder erzeugen können.

Das neue Modell wurde laut Google auch bei der Darstellung verschiedener Kunststile optimiert – von Fotorealismus über Impressionismus bis zu abstrakter Kunst und Anime. Zudem verspricht der Konzern eine verbesserte Detailgenauigkeit mit reichhaltigeren Texturen und feineren Details.

Das neue Imagen 3 wird ab sofort global über Googles ImageFX-Tool in mehr als 100 Ländern ausgerollt. Imagen 3 ist auch über Googles Gemini-Chat verfügbar, wobei sich Google nicht äußert, ob und wann hier das aktualisierte Modell verfügbar sein wird.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Veo 2 und Imagen 3: Google stellt neues KI-Video- und Bildmodell vor

Imagen 3 startet in mehr als 100 Ländern

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.