Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Google zeigt VideoPoet, ein neues generatives KI-System, das aus Text und anderen Inputs Videos generieren und bearbeiten kann.

Laut Google handelt es sich bei VideoPoet um ein großes Sprachmodell, das für eine Vielzahl von Aufgaben der Videoerzeugung entwickelt wurde, darunter Text-zu-Video, Bild-zu-Video, Video-Stilisierung, Video-Inpainting und -Outpainting sowie Video-zu-Audio. Im Gegensatz zu konkurrierenden Modellen integriert VideoPoet so viele Fähigkeiten in einem einzigen Modell, anstatt sich auf separat trainierte Komponenten für jede Aufgabe zu verlassen.

Video: Google

VideoPoet ist ein Sprachmodell, das mit mehreren Tokenizern - Bausteinen, die Eingaben in Token umwandeln - für Video-, Bild-, Audio- und Textmodalitäten trainiert wurde. Die generierten Token können dann von den Tokenizer-Decodern in Video umgewandelt werden. Laut Google hat die Verwendung eines Sprachmodells für das Training den Vorteil, dass viele der skalierbaren Effizienzverbesserungen, die in bestehenden Trainingsinfrastrukturen eingeführt wurden, wiederverwendet werden können.

Anzeige
Anzeige

Video: Google

VideoPoet kann auch längere Videos erzeugen, indem es auf dem letzten Sekundenbruchteil eines Videos aufbaut und die nächste Sekunde vorhersagt. Dabei kann das Modell das Aussehen aller Objekte über mehrere Iterationen hinweg beibehalten. Videoclips können auch bearbeitet werden, etwa der Stil verändert oder auch aus einem einzigen Bild ein Video generiert werden.

Video: Google

In den Videos können auch die Kamerabewegungen präzise gesteuert werden, indem die gewünschte Art der Kamerabewegung über Textprompts beschrieben wird.

Video: Google

Empfehlung

VideoPoet kann zudem Videos mit Sound generieren, wie etwa diese Piano-spielende Katze.

Video: Google

VideoPoet ein Schritt zur "Any-to-Any"-Generierung

Nach Angaben von Google wurde VideoPoet anhand einer Reihe von Benchmarks evaluiert und die generierten Videos mit denen anderer Modelle verglichen. Im Durchschnitt bevorzugten die Teilnehmer zwischen 24 und 35 % der VideoPoet-Beispiele aus, weil sie besser dem Prompt entsprachen als konkurrierende Modelle wie Phenaki, VideoCrafter und Show-1.

Laut Google könnte das Framework in Zukunft auch "Any-to-Any"-Generierung unterstützen und auf Text-zu-Audio, Audio-zu-Video und Video-Untertitel erweitert werden, "neben vielen anderen".

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Mit Bard als Drehbuchautor hat Google mit VideoPoet auch einen kleinen Kurzfilm produziert:

 

Weitere Beispiele in voller Auflösung gibt es auf der VideoPoet Projektseite.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google präsentiert VideoPoet, ein KI-System, das aus Text und anderen Inputs Videos generieren und bearbeiten kann, einschließlich Text-zu-Video, Bild-zu-Video und Video-Stilisierung.
  • VideoPoet ist ein großes Sprachmodell, das mit mehreren Tokenizern für Video-, Bild-, Audio- und Textmodalitäten trainiert wurde, wodurch es viele Fähigkeiten in einem einzigen Modell integriert.
  • In der Zukunft könnte das Framework "Any-to-Any"-Generierung unterstützen und auf Text-zu-Audio, Audio-zu-Video und Video-Untertitel erweitert werden, um noch vielseitigere Anwendungen zu ermöglichen.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!