Google zeigt VideoPoet, ein neues generatives KI-System, das aus Text und anderen Inputs Videos generieren und bearbeiten kann.
Laut Google handelt es sich bei VideoPoet um ein großes Sprachmodell, das für eine Vielzahl von Aufgaben der Videoerzeugung entwickelt wurde, darunter Text-zu-Video, Bild-zu-Video, Video-Stilisierung, Video-Inpainting und -Outpainting sowie Video-zu-Audio. Im Gegensatz zu konkurrierenden Modellen integriert VideoPoet so viele Fähigkeiten in einem einzigen Modell, anstatt sich auf separat trainierte Komponenten für jede Aufgabe zu verlassen.
VideoPoet ist ein Sprachmodell, das mit mehreren Tokenizern - Bausteinen, die Eingaben in Token umwandeln - für Video-, Bild-, Audio- und Textmodalitäten trainiert wurde. Die generierten Token können dann von den Tokenizer-Decodern in Video umgewandelt werden. Laut Google hat die Verwendung eines Sprachmodells für das Training den Vorteil, dass viele der skalierbaren Effizienzverbesserungen, die in bestehenden Trainingsinfrastrukturen eingeführt wurden, wiederverwendet werden können.
VideoPoet kann auch längere Videos erzeugen, indem es auf dem letzten Sekundenbruchteil eines Videos aufbaut und die nächste Sekunde vorhersagt. Dabei kann das Modell das Aussehen aller Objekte über mehrere Iterationen hinweg beibehalten. Videoclips können auch bearbeitet werden, etwa der Stil verändert oder auch aus einem einzigen Bild ein Video generiert werden.
In den Videos können auch die Kamerabewegungen präzise gesteuert werden, indem die gewünschte Art der Kamerabewegung über Textprompts beschrieben wird.
VideoPoet kann zudem Videos mit Sound generieren, wie etwa diese Piano-spielende Katze.
VideoPoet ein Schritt zur "Any-to-Any"-Generierung
Nach Angaben von Google wurde VideoPoet anhand einer Reihe von Benchmarks evaluiert und die generierten Videos mit denen anderer Modelle verglichen. Im Durchschnitt bevorzugten die Teilnehmer zwischen 24 und 35 % der VideoPoet-Beispiele aus, weil sie besser dem Prompt entsprachen als konkurrierende Modelle wie Phenaki, VideoCrafter und Show-1.
Laut Google könnte das Framework in Zukunft auch "Any-to-Any"-Generierung unterstützen und auf Text-zu-Audio, Audio-zu-Video und Video-Untertitel erweitert werden, "neben vielen anderen".
Mit Bard als Drehbuchautor hat Google mit VideoPoet auch einen kleinen Kurzfilm produziert:
Weitere Beispiele in voller Auflösung gibt es auf der VideoPoet Projektseite.