Inhalt
summary Zusammenfassung

Googles neueste generative KI "Imagen Video" erstellt anhand von Texteingaben kurze Videos. Das ist nach letzter Woche schon fast keine Neuigkeit mehr - aber Imagen Video erzielt einen neuen Qualitätsstandard bei Auflösung und Bildwiederholrate.

Anzeige

Kurz nach Meta mit Make-a-Video stellt auch Google ein Text-zu-Video-System vor: Es greift auf die Diffusionstechnik und weitere Erkenntnisse der Bild-KI Imagen zurück, die bislang mächtigste öffentlich vorgestellte Bild-KI, verwendet laut Googles Forschungsteam aber einen komplexeren Aufbau bestehend aus einer "Kaskade an Videodiffusionsmodellen".

"A bunch of autumn leaves falling on a calm lake to form the text 'Imagen Video'. Smooth. | Video: Google

Das Imagen-Video-Modell wurde im Vergleich zum Imagen-Bild-Modell um eine Zeitachse erweitert und zudem mit Bildern und Videos gemeinsam trainiert. Die Stärken des Imagen-Bildmodells blieben laut Google dabei erhalten. Für die Textverarbeitung von Imagen Video setzt Google wie schon bei Imagen Bild auf ein großes, vortrainiertes Transformer-Sprachmodell (T5-XXL).

Anzeige
Anzeige

Imagen Video erreicht HD-Auflösung und flüssige Bildwiederholrate

Derzeitiges Alleinstellungsmerkmal von Imagen Video ist die hohe Auflösung in Kombination mit einer relativ hohen Bildwiederholrate: Das KI-System erreicht mit 1280 x 768 Pixeln bei 24 Bildern pro Sekunde HD-Standard. Meta generierte mit Make-a-Video für erste Tests Videos mit einer maximalen Auflösung von 768 x 768 Videos bei einer geringeren Bildwiederholrate.

Imagen Video beherrscht wie generative Bildsysteme verschiedene künstlerische Stile - von Pixel Art bis Van Gogh - hat laut Google ein Verständnis für 3D-Objekte und kann Wörter korrekt buchstabieren. Eine Besonderheit, die schon der Imagen-Bild-KI vorbehalten war.

Imagen Video beherrscht verschiedene künstlerische Stile, versteht 3D-Strukturen und Text. | Bild: Google

Das System biete zudem ein "hohes Maß an Kontrollierbarkeit und Weltkenntnis" und könne Videos sehr genau zum Textbefehl generieren, schreibt das Forschungsteam - und demonstriert es auch.

Wie bei Metas Make-a-Video ist allerdings die Länge der Videos begrenzt: Die Ausgabe liegt derzeit bei maximal rund fünf Sekunden. Imagen Video generiert also eher längere Animationen als Videos - doch auch hierfür kündigt sich eine Lösung an.

Empfehlung

Lange KI-Videos: Phenaki stammt auch von Google

Dass KI auch lange Videos generieren kann, zeigte erst letzte Woche das Text-zu-Video-KI-System Phenaki, das aus aufeinander aufbauenden Prompts ganze Story-Szenen generieren kann. In einer Demo zeigte das Phenaki-Forschungsteam ein rund zwei Minuten langes Video, das entlang eines kleinen Drehbuchs generiert wurde.

Zum Zeitpunkt der Veröffentlichung von Phenaki war aus Review-Gründen nicht klar, wer hinter dem Paper steckt. Jetzt verrät Imagen-Video-Leitautor Jonathan Ho bei Twitter, dass Phenaki ebenfalls ein Google-Projekt ist.

Der nächste Schritt laut Ho: Die Bildqualität von Imagen Video und die Kohärenz und Videolänge von Phenaki sollen kombiniert werden.

Imagen Video wird vorerst nicht veröffentlicht

Wie schon bei Imagen für Bilder veröffentlicht Google das Modell derzeit nicht. Die Begründung lautet gleich: Imagen Video wurde mit teils "problematischen Daten" trainiert.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Bei internen Tests hätten zwar viele explizite und gewalthaltige Inhalte erfolgreich gefiltert werden können, aber soziale Verzerrungen und Stereotypen würden noch immer repliziert. Es sei eine Herausforderung diese zu erkennen und zu filtern, schreibt das Forschungsteam.

Mit einer ähnlichen Begründung verzichtete auch Meta vorläufig auf die Veröffentlichung von Make-a-Video, stellte aber zumindest eine zeitnahe Demo in Aussicht.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Googles KI-System Imagen Video erstellt anhand von Texteingaben bis zu fünf Sekunden lange Videos.
  • Die Videos erreichen mit einer Auflösung von 1280 x 768 Pixeln bei 24 Bildern pro Sekunde HD-Standard.
  • Das kürzlich vorgestellte Text-zu-Video-System Phenaki für längere Videos stammt ebenfalls von Google - und soll im nächsten Schritt mit Imagen Video zusammengeführt werden.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!