Update vom 06. Juni 2023:
Runway Gen-2 ist ab sofort im Browser und in der Smartphone-App für iOS verfügbar. Der folgende Trailer zeigt einige der neuen Features.
Ursprünglicher Artikel vom 20. März 2023:
Das New Yorker Web-Videoeditor Start-up Runway stellt mit Gen-2 ein neues Text-zu-Video-Modell vor.
Erst im Februar hatte Runway das Modell Gen-1 vorgestellt, das vorhandenen Videos ein neues Aussehen überstülpen kann. Aus einer realistisch gefilmten Szene wird beispielsweise per Sprachbefehl eine Comic-Welt, die die Proportionen und Bewegungen des Originals beibehält.
Das funktioniert für Personen und für Umgebungen, und das auf einem hohen Abstraktionsniveau: Aus nebeneinander liegenden Notizbüchern macht Gen-1 beispielsweise per Textbefehl eine Skyline. All diese Fähigkeiten stecken auch im neuen Modell Gen-2 von Runway.
Runway startet mit Text-zu-Video-Modell
Gen-2 geht aber noch einen Schritt weiter und generiert aus einem Prompt völlig neue Videoszenen. Die folgende dreisekündige Videoszene wurde von Runway mit dem Prompt "Aerial drone footage of a mountain range" generiert. Audio ist noch nicht dabei, wird laut Runway aber gerade erforscht.
Darüber hinaus kann Runway kurze Videosequenzen auf der Grundlage eines Bildes oder aus der Kombination eines Bildes mit einer Textbeschreibung erzeugen. Links im Screenshot ist das Eingabebild zu sehen, das in eine kurze Videoanimation umgewandelt wird (rechts, groß im Bild). Die Szene im Hintergrund ändert sich entsprechend der Textanweisung.
Wie Bloomberg nach einer Demonstration berichtet, soll die Generierung eines Videos "innerhalb von Minuten" erfolgen. Allerdings ist die Ausgabe nur wenige Sekunden lang und die generierten Sequenzen enthalten viele Bildfehler und ruckeln. Insbesondere Bewegungsabläufe stellen für das Modell noch eine Herausforderung dar. Dafür passen die generierten Szenen zum Textbefehl.
Verteilung per Discord-Warteliste
Runway macht Gen-2 ausgewählten Testern und Testerinnen zugänglich, die sich über Discord auf eine Warteliste eintragen. Die Ausrollung soll kontinuierlich stattfinden. Gen-1 hat laut Runway derzeit "tausende Nutzer". Einen möglichen Missbrauch des Videosystems etwa für gewalthaltige Inhalte will Runway durch eine Kombination aus KI-Mechanismen mit der Hilfe menschlicher Moderator:innen verhindern.
Neben Runway arbeitet Google am Text-zu-Video-KI-System Phenaki und Meta an Make-a-Video. Meta hat mit Dreamix ein weiteres Modell speziell für die Videobearbeitung per Text in Arbeit. Für den Fall, dass sich die raschen Fortschritte bei KI-Bildgenerierung auf Videos übertragen, sollten Datenbanken mit Stock-Video-Sequenzen schon mal das Geschäftsmodell überdenken.