Inhalt
summary Zusammenfassung

Text-to-Video-Systeme können Worte in bewegte Bilder umwandeln. Zeroscope stellt diese Fähigkeit nun als freie und kostenlose Software zur Verfügung.

Zeroscope basiert auf Modelscope (Demo), einem mehrstufigen Text-zu-Video-Diffusionsmodell mit 1,7 Milliarden Parametern, das zu einer textuellen Beschreibung ein Video erzeugt. Zeroscope ist eine verfeinerte Modelscope-Variante mit höherer Auflösung, ohne Shutterstock-Wasserzeichen und näher an einer 16:9-Auflösung.

Zeroscope besteht aus zwei Komponenten: Zeroscope_v2 567w ist für eine schnelle Generierung in 576x320 Pixel ausgelegt, um Videoideen zu erforschen. Gelungene Videos können dann mit zeroscope_v2 XL auf 1024x576 Pixel "in hoher Qualität" hochskaliert werden. Die Musik im folgenden Demo-Video wurde nachträglich hinzugefügt.

Video: Zeroscope XL

Anzeige
Anzeige

Das Modell benötigt für die Videogenerierung 7,9 GB VRam bei 30 Bildern pro Sekunde in einer Auflösung von 576x320 Pixel und 15,3 GB VRam bei 30 Bildern pro Sekunde in einer Auflösung von 1024x576 Pixel. Zumindest das kleinere Modell sollte daher auf vielen aktuellen, im Handel erhältlichen Grafikkarten laufen.

Zeroscope wurde mit Offset-Rauschen trainiert, das auf eine Sammlung von 9.923 Clips und 29.769 getaggten Frames mit 24 Frames angewendet wurde. Das Offset-Rauschen kann eine zufällige Verschiebung der Position von Objekten in Videobildern, eine geringfügige Änderung des Timings von Bildern oder das Hinzufügen geringfügiger Verzerrungen beinhalten.

Durch Hinzufügen dieses Rauschens während des Trainings kann das Modell die zugrunde liegende Datenverteilung besser erlernen. Auf diese Weise kann das Modell vielfältigere und realistischere Videos erzeugen und mehr Variationen in den Textbeschreibungen passend verarbeiten.

Open-Source-Konkurrenz für Runway?

Laut dem Zeroscope-Entwickler "cerspense" auf Reddit", der sich zuvor intensiv mit Modelscope beschäftigt hat, ist es nicht "super schwer", das Modell mit zusätzlichen Daten zu verfeinern, wenn man 24 GB VRam zur Verfügung hat. Beim Feintuning hat er das Modelscope-Wasserzeichen entfernt.

Er beschreibt sein Modell als "ein Video-Modell, das entwickelt wurde, um GEN-2 anzugreifen", das kommerzielle Text-zu-Video-Modell von Runway ML. Laut cerspense ist Zeroscope ohne Einschränkungen öffentlich verfügbar.

Empfehlung

Weitere Beispiele für Videos, die mit ZeroscopeXL generiert wurden, zeigt der KI-Künstler und -Entwickler "dotsimulate" im folgenden Video.

Die beiden Modelle 567w und Zeroscope_v2 XL können kostenlos von Hugging Face heruntergeladen werden. Bei Hugging Face steht auch eine Anleitung. Eine Version von Zeroscope bei Colab samt eines Tutorials ist hier verfügbar.

Kann sich Text-zu-Video genauso schnell entwickeln wie Text-zu-Bild?

Text-zu-Video befindet sich noch in einem frühen Entwicklungsstadium. Die KI-generierten Clips sind meist nur wenige Sekunden lang und weisen zahlreiche Bildfehler auf. Bild-KI-Modelle sind jedoch ähnlich gestartet und konnten innerhalb weniger Monate Fotorealismus erreichen. Im Vergleich zu reinen Bildmodellen ist die Videogenerierung jedoch deutlich ressourcenintensiver, beim Training ebenso wie bei der Generierung.

Google hat mit Phenaki und Imagen Video bereits zwei Text-zu-Video-Modelle vorgestellt, die in der Lage sind, hochauflösende, längere und logisch zusammenhängende Clips zu generieren, diese aber noch nicht veröffentlicht. Auch Meta stellte mit Make-a-Video schon ein Text-zu-Video-Modell vor, das ebenfalls noch unveröffentlicht ist.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Kommerziell verfügbar ist bisher nur Gen-2 von Runway, neuerdings sogar auf dem iPhone. Mit Zeroscope kommt jetzt das erste hochwertigere Open-Source-Modell hinzu.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die kostenlose Software Zeroscope wandelt mit Hilfe der Text-to-Video-Technologie schriftliche Beschreibungen in qualitativ hochwertige Videos um. Es ist eine Weiterentwicklung von Modelscope und bietet im Vergleich zum Basismodell eine höhere Auflösung, keine Wasserzeichen und ein annähernd gleiches Seitenverhältnis von 16:9.
  • Das Programm besteht aus zwei Teilen: Zeroscope_v2 567w für die schnelle Erstellung von Inhalten in niedriger Auflösung und zeroscope_v2 XL für die Hochskalierung von Inhalten auf eine höhere Auflösung.
  • Zeroscope ist ein potenzieller Open-Source-Konkurrent zu kommerziellen Modellen wie Runways Gen-2 und stellt den Beginn einer qualitativ hochwertigen Open-Source-Text-to-Video-Technologie dar, die noch in den Kinderschuhen steckt, aber das Potenzial hat, sich ähnlich schnell zu entwickeln wie Text-to-Image-Modelle.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!