KI-Forschung

VideoPoet: Googles neuestes Sprachmodell generiert Videos

Maximilian Schreiner

Google

Google zeigt VideoPoet, ein neues generatives KI-System, das aus Text und anderen Inputs Videos generieren und bearbeiten kann.

Laut Google handelt es sich bei VideoPoet um ein großes Sprachmodell, das für eine Vielzahl von Aufgaben der Videoerzeugung entwickelt wurde, darunter Text-zu-Video, Bild-zu-Video, Video-Stilisierung, Video-Inpainting und -Outpainting sowie Video-zu-Audio. Im Gegensatz zu konkurrierenden Modellen integriert VideoPoet so viele Fähigkeiten in einem einzigen Modell, anstatt sich auf separat trainierte Komponenten für jede Aufgabe zu verlassen.

Video: Google

VideoPoet ist ein Sprachmodell, das mit mehreren Tokenizern - Bausteinen, die Eingaben in Token umwandeln - für Video-, Bild-, Audio- und Textmodalitäten trainiert wurde. Die generierten Token können dann von den Tokenizer-Decodern in Video umgewandelt werden. Laut Google hat die Verwendung eines Sprachmodells für das Training den Vorteil, dass viele der skalierbaren Effizienzverbesserungen, die in bestehenden Trainingsinfrastrukturen eingeführt wurden, wiederverwendet werden können.

Video: Google

VideoPoet kann auch längere Videos erzeugen, indem es auf dem letzten Sekundenbruchteil eines Videos aufbaut und die nächste Sekunde vorhersagt. Dabei kann das Modell das Aussehen aller Objekte über mehrere Iterationen hinweg beibehalten. Videoclips können auch bearbeitet werden, etwa der Stil verändert oder auch aus einem einzigen Bild ein Video generiert werden.

Video: Google

In den Videos können auch die Kamerabewegungen präzise gesteuert werden, indem die gewünschte Art der Kamerabewegung über Textprompts beschrieben wird.

Video: Google

VideoPoet kann zudem Videos mit Sound generieren, wie etwa diese Piano-spielende Katze.

Video: Google

VideoPoet ein Schritt zur "Any-to-Any"-Generierung

Nach Angaben von Google wurde VideoPoet anhand einer Reihe von Benchmarks evaluiert und die generierten Videos mit denen anderer Modelle verglichen. Im Durchschnitt bevorzugten die Teilnehmer zwischen 24 und 35 % der VideoPoet-Beispiele aus, weil sie besser dem Prompt entsprachen als konkurrierende Modelle wie Phenaki, VideoCrafter und Show-1.

Laut Google könnte das Framework in Zukunft auch "Any-to-Any"-Generierung unterstützen und auf Text-zu-Audio, Audio-zu-Video und Video-Untertitel erweitert werden, "neben vielen anderen".

Mit Bard als Drehbuchautor hat Google mit VideoPoet auch einen kleinen Kurzfilm produziert:

 

Weitere Beispiele in voller Auflösung gibt es auf der VideoPoet Projektseite.