VideoPoet: Googles neuestes Sprachmodell generiert Videos

21. Dezember 2023

Google

Google zeigt VideoPoet, ein neues generatives KI-System, das aus Text und anderen Inputs Videos generieren und bearbeiten kann.

Laut Google handelt es sich bei VideoPoet um ein großes Sprachmodell, das für eine Vielzahl von Aufgaben der Videoerzeugung entwickelt wurde, darunter Text-zu-Video, Bild-zu-Video, Video-Stilisierung, Video-Inpainting und -Outpainting sowie Video-zu-Audio. Im Gegensatz zu konkurrierenden Modellen integriert VideoPoet so viele Fähigkeiten in einem einzigen Modell, anstatt sich auf separat trainierte Komponenten für jede Aufgabe zu verlassen.

Video: Google

VideoPoet ist ein Sprachmodell, das mit mehreren Tokenizern - Bausteinen, die Eingaben in Token umwandeln - für Video-, Bild-, Audio- und Textmodalitäten trainiert wurde. Die generierten Token können dann von den Tokenizer-Decodern in Video umgewandelt werden. Laut Google hat die Verwendung eines Sprachmodells für das Training den Vorteil, dass viele der skalierbaren Effizienzverbesserungen, die in bestehenden Trainingsinfrastrukturen eingeführt wurden, wiederverwendet werden können.

Video: Google

VideoPoet kann auch längere Videos erzeugen, indem es auf dem letzten Sekundenbruchteil eines Videos aufbaut und die nächste Sekunde vorhersagt. Dabei kann das Modell das Aussehen aller Objekte über mehrere Iterationen hinweg beibehalten. Videoclips können auch bearbeitet werden, etwa der Stil verändert oder auch aus einem einzigen Bild ein Video generiert werden.

Video: Google

In den Videos können auch die Kamerabewegungen präzise gesteuert werden, indem die gewünschte Art der Kamerabewegung über Textprompts beschrieben wird.

Video: Google

VideoPoet kann zudem Videos mit Sound generieren, wie etwa diese Piano-spielende Katze.

Video: Google

VideoPoet ein Schritt zur "Any-to-Any"-Generierung

Nach Angaben von Google wurde VideoPoet anhand einer Reihe von Benchmarks evaluiert und die generierten Videos mit denen anderer Modelle verglichen. Im Durchschnitt bevorzugten die Teilnehmer zwischen 24 und 35 % der VideoPoet-Beispiele aus, weil sie besser dem Prompt entsprachen als konkurrierende Modelle wie Phenaki, VideoCrafter und Show-1.

Laut Google könnte das Framework in Zukunft auch "Any-to-Any"-Generierung unterstützen und auf Text-zu-Audio, Audio-zu-Video und Video-Untertitel erweitert werden, "neben vielen anderen".

Mit Bard als Drehbuchautor hat Google mit VideoPoet auch einen kleinen Kurzfilm produziert:

Weitere Beispiele in voller Auflösung gibt es auf der VideoPoet Projektseite.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 16 % Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

VideoPoet: Googles neuestes Sprachmodell generiert Videos

VideoPoet ein Schritt zur "Any-to-Any"-Generierung

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.