Phenaki: Text-zu-Video-KI kann minutenlange Videos generieren

Das KI-Modell Phenaki kann anhand detaillierter, aufeinanderfolgender Texteingaben minutenlange, zusammenhängende Videos generieren.

Am selben Tag wie Metas "Make a Video" machte ein zweites Text-zu-Video-System online die Runde: Es heißt Phenaki und kann laut Angaben der Autoren minutenlange, zusammenhängende Videos anhand aufeinander aufbauender Textbefehle generieren.

Die Autoren sind anonym, da das Paper noch im Review-Prozess für die KI-Fachkonferenz International Conference on Learning Representations (ICLR) ist.

Zeitliche Zusammenhänge

Im Unterschied zu KI-generierten Bildern reichten für KI-generierte Videos einzelne Prompts nicht aus, schreiben die Autoren. Ein KI-Video-System müsse auf mehrere, zusammenhängende Prompts konditioniert werden - eine Story, die Geschehnisse über einen Zeitverlauf beschreibt.

Die Forschenden entwickelten daher ein Transformer-basiertes Modell, das Videos zu kleinen Repräsentationen diskreter Token komprimiert. Dieser Tokenizer verwendet zeitabhängige kausale Aufmerksamkeit, sodass Videosequenzen entlang einer in einem Prompt beschriebenen zeitlichen Reihenfolge von Ereignissen aneinandergereiht werden können.

"In Phenaki behandeln wir Videos als eine zeitliche Abfolge von Bildern (statt einer einzelnen Abfolge, Anm. der Redaktion), was die Anzahl der Video-Token angesichts der Redundanz bei der Videogenerierung erheblich verringert und zu wesentlich geringeren Trainingskosten führt", schreibt das Forschungsteam.

Gleichzeitiges lernen aus Bild- und Video-Text-Paaren

Trainiert wurde das multimodale Modell wie große Bild-KI-Systeme insbesondere mit Text-Bild-Paaren. Zusätzlich trainierten die Forscher Phenaki mit 1,4-Sekunden kurzen Video-Text-Paaren mit acht Bildern pro Sekunde.

"Wir zeigen, wie gemeinsames Training auf einem großen Korpus von Bild-Text-Paaren sowie einer kleineren Anzahl von Video-Text-Beispielen zu einer Generalisierung führen kann, die über das hinausgeht, was in den Videodatensätzen verfügbar ist", schreiben die Forscher.

Das System kann laut der Forscher sogar Prompts verarbeiten, die eine neue Komposition von Konzepten darstellen oder schon vorhandene Bilder anhand einer Texteingabe animieren.

Empfehlung

KI-Forschung

Update

OpenAI-Projekt "Strawberry" könnte mathematische Probleme auf hohem Niveau lösen

Als Beispiel für ein längeres Video zeigt das Team den folgenden Clip. Er wurde anhand eines ausführlichen Textbefehls generiert, der Szene für Szene beschreibt.

Viel Verkehr in einer futuristischen Stadt. Ein außerirdisches Raumschiff kommt in der futuristischen Stadt an. Die Kamera geht in das Innere des außerirdischen Raumschiffs. Die Kamera bewegt sich vorwärts, bis sie einen Astronauten in einem blauen Raum zeigt. Der Astronaut tippt auf der Tastatur. Die Kamera bewegt sich von dem Astronauten weg. Der Astronaut verlässt die Tastatur und geht nach links. Der Astronaut verlässt die Tastatur und geht weg. Die Kamera bewegt sich über den Astronauten hinaus und blickt auf den Bildschirm. Auf dem Bildschirm hinter dem Astronauten sind Fische zu sehen, die im Meer schwimmen. Crash zoomt auf den blauen Fisch. Wir folgen dem blauen Fisch, wie er im dunklen Ozean schwimmt. Die Kamera zeigt durch das Wasser nach oben in den Himmel. Der Ozean und die Küstenlinie einer futuristischen Stadt. Crash-Zoom in Richtung eines futuristischen Wolkenkratzers. Die Kamera zoomt in eines der vielen Fenster. Wir befinden uns in einem Büroraum mit leeren Schreibtischen. Ein Löwe rennt auf den Schreibtischen herum. Die Kamera zoomt auf das Gesicht des Löwen im Inneren des Büros. Zoom auf den Löwen, der einen dunklen Anzug trägt, in einem Büroraum. Der Löwe im Anzug schaut in die Kamera und lächelt. Die Kamera zoomt langsam auf das Äußere des Wolkenkratzers hinaus. Zeitraffer des Sonnenuntergangs in der modernen Stadt

Video: Phenaki Demo

Zunächst keine Veröffentlichung wegen ethischer Bedenken

Trainiert wurde Phenaki laut der Autoren mit einer Reihe Datensätze, darunter der LAION-400M Datensatz, der zwar gewalthaltige, gewaltverherrlichende und pornografische Inhalte enthalte, aber die Qualität der Generierung verbessert habe. In einer aktuellen Phenaki-Version kämen Datensätze zum Einsatz, die "solche Probleme" minimierten.

Dennoch möchte das Team aus ethischen Bedenken derzeit keine für Phenaki trainierten Modelle, den Code, die Daten oder eine interaktive Demo veröffentlichen. Vor einer möglichen Veröffentlichung will es zunächst den Zusammenhang aus Daten, Eingaben und gefiltertem Output besser versehen. Zudem will es den enthaltenen Bias in den generierten Videos messen, um Verzerrungen und Vorurteile auf allen Ebenen der Modellentwicklung (Datenauswahl, Training, Filter) zu minimieren.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Phenaki: Text-zu-Video-KI kann minutenlange Videos generieren

Zeitliche Zusammenhänge

Gleichzeitiges lernen aus Bild- und Video-Text-Paaren

OpenAI-Projekt "Strawberry" könnte mathematische Probleme auf hohem Niveau lösen

Zunächst keine Veröffentlichung wegen ethischer Bedenken

OpenAI-CEO Sam Altman: Vergütung von Künstlern für KI-Nutzung ihres Stils wäre "cool"

KI-designte Crocs-Alternative aus dem 3D-Drucker geht in den Verkauf

Menschen bevorzugen laut Studie KI-Gedichte, wenn sie ihre KI-Herkunft nicht kennen

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Phenaki: Text-zu-Video-KI kann minutenlange Videos generieren

Zeitliche Zusammenhänge

Gleichzeitiges lernen aus Bild- und Video-Text-Paaren

Zunächst keine Veröffentlichung wegen ethischer Bedenken

Artikel teilen

Bankverbindung