Text-to-Video-Systeme können Worte in bewegte Bilder umwandeln. Zeroscope stellt diese Fähigkeit nun als freie und kostenlose Software zur Verfügung.
Zeroscope basiert auf Modelscope (Demo), einem mehrstufigen Text-zu-Video-Diffusionsmodell mit 1,7 Milliarden Parametern, das zu einer textuellen Beschreibung ein Video erzeugt. Zeroscope ist eine verfeinerte Modelscope-Variante mit höherer Auflösung, ohne Shutterstock-Wasserzeichen und näher an einer 16:9-Auflösung.
Zeroscope besteht aus zwei Komponenten: Zeroscope_v2 567w ist für eine schnelle Generierung in 576x320 Pixel ausgelegt, um Videoideen zu erforschen. Gelungene Videos können dann mit zeroscope_v2 XL auf 1024x576 Pixel "in hoher Qualität" hochskaliert werden. Die Musik im folgenden Demo-Video wurde nachträglich hinzugefügt.
Das Modell benötigt für die Videogenerierung 7,9 GB VRam bei 30 Bildern pro Sekunde in einer Auflösung von 576x320 Pixel und 15,3 GB VRam bei 30 Bildern pro Sekunde in einer Auflösung von 1024x576 Pixel. Zumindest das kleinere Modell sollte daher auf vielen aktuellen, im Handel erhältlichen Grafikkarten laufen.
Zeroscope wurde mit Offset-Rauschen trainiert, das auf eine Sammlung von 9.923 Clips und 29.769 getaggten Frames mit 24 Frames angewendet wurde. Das Offset-Rauschen kann eine zufällige Verschiebung der Position von Objekten in Videobildern, eine geringfügige Änderung des Timings von Bildern oder das Hinzufügen geringfügiger Verzerrungen beinhalten.
Durch Hinzufügen dieses Rauschens während des Trainings kann das Modell die zugrunde liegende Datenverteilung besser erlernen. Auf diese Weise kann das Modell vielfältigere und realistischere Videos erzeugen und mehr Variationen in den Textbeschreibungen passend verarbeiten.
Open-Source-Konkurrenz für Runway?
Laut dem Zeroscope-Entwickler "cerspense" auf Reddit", der sich zuvor intensiv mit Modelscope beschäftigt hat, ist es nicht "super schwer", das Modell mit zusätzlichen Daten zu verfeinern, wenn man 24 GB VRam zur Verfügung hat. Beim Feintuning hat er das Modelscope-Wasserzeichen entfernt.
Er beschreibt sein Modell als "ein Video-Modell, das entwickelt wurde, um GEN-2 anzugreifen", das kommerzielle Text-zu-Video-Modell von Runway ML. Laut cerspense ist Zeroscope ohne Einschränkungen öffentlich verfügbar.
Weitere Beispiele für Videos, die mit ZeroscopeXL generiert wurden, zeigt der KI-Künstler und -Entwickler "dotsimulate" im folgenden Video.
Die beiden Modelle 567w und Zeroscope_v2 XL können kostenlos von Hugging Face heruntergeladen werden. Bei Hugging Face steht auch eine Anleitung. Eine Version von Zeroscope bei Colab samt eines Tutorials ist hier verfügbar.
Kann sich Text-zu-Video genauso schnell entwickeln wie Text-zu-Bild?
Text-zu-Video befindet sich noch in einem frühen Entwicklungsstadium. Die KI-generierten Clips sind meist nur wenige Sekunden lang und weisen zahlreiche Bildfehler auf. Bild-KI-Modelle sind jedoch ähnlich gestartet und konnten innerhalb weniger Monate Fotorealismus erreichen. Im Vergleich zu reinen Bildmodellen ist die Videogenerierung jedoch deutlich ressourcenintensiver, beim Training ebenso wie bei der Generierung.
Google hat mit Phenaki und Imagen Video bereits zwei Text-zu-Video-Modelle vorgestellt, die in der Lage sind, hochauflösende, längere und logisch zusammenhängende Clips zu generieren, diese aber noch nicht veröffentlicht. Auch Meta stellte mit Make-a-Video schon ein Text-zu-Video-Modell vor, das ebenfalls noch unveröffentlicht ist.
Kommerziell verfügbar ist bisher nur Gen-2 von Runway, neuerdings sogar auf dem iPhone. Mit Zeroscope kommt jetzt das erste hochwertigere Open-Source-Modell hinzu.