Gen-1: Stable Diffusion Start-up stellt generative KI für Video vor

Mit dem Gen-1-Modell von Runway können bestehende Videos per Textbefehl visuell bearbeitet werden.

Im vergangenen Jahr startete das New Yorker KI-Videoeditor Start-up Runway zusammen mit Stability AI, der LMU München, Eleuther AI und Laion die Open Source Bild-KI Stable Diffusion.

Jetzt zeigt es ein neues Modell: "Gen-1" kann bestehende Videos visuell in neue verwandeln. Aus einer realistisch gefilmten Bahn-Tür wird per Textbefehl eine Tür in Cartoon-Optik.

Die realistisch gefilmte Tür links wird per Textbefehl zu einer Zeichentricktür rechts. | Bild: Runway

Aus einem Schauspieler in einem Video wird ein Comic-Superheld. Seine Verwandlung erfolgt anhand eines eingegebenen Bildes. Das Modell kann für bessere Transformationen mit eigenen Bildern verfeinert werden.

Person zu Superheld per Input-Bild. | Bild: Runway

Die Abstraktionsebene führt noch eine Ebene weiter: Aus ein paar lose zusammengestellten Notizbüchern kann Gen-1 per Textbefehl eine Großstadtkulisse mit Wolkenkratzern rendern. "Es ist, als würde man etwas Neues filmen, ohne überhaupt etwas zu filmen", schreibt Runway.

Aus lose zusammengestellten Notizbüchern wird eine Skyline. | Bild: Runway

Gen-1 kann zudem Objekte in Videos isolieren und verändern, sodass aus einem Golden Retriever ein Dalmatiner wird, und Texturen auf untexturierte 3D-Objekte anwenden. Auch die Texturen werden per Textbefehl erzeugt.

Runway erwartet rasche Fortschritte bei der KI-Videobearbeitung

Mit KI bearbeitete Videos können noch nicht mit professionell bearbeiteten Videos mithalten. Sie enthalten Bildfehler, schiefe Geometrien oder wirken schlicht unecht, unwirklich. Doch das Projekt steckt noch in den Kinderschuhen.

"KI-Systeme für die Bild- und Videosynthese werden immer präziser, realistischer und kontrollierbarer", schreibt das Start-up.

Video: Runway

Empfehlung

KI-Forschung

Studie zeigt: KI-Systeme können mehr als sie über Prompts preisgeben

Betrachtet man die enormen Fortschritte, die bilderzeugende KI-Systeme in den vergangenen Jahren gemacht haben, braucht es wenig Fantasie, um sich vorzustellen, dass Systeme wie Gen-1 in einigen Jahren eine wichtige Rolle in der Videobearbeitung spielen könnten.

Offene Open-Source-Frage

Stable Diffusion erlangte insbesondere dadurch Bekanntheit, dass es als Open Source im Netz frei verfügbar ist. Wer sich ein wenig mit Computern auskennt und zudem gerne Software konfiguriert, erhält damit eine kostenlose und unzensierte Alternative zu DALL-E 2 oder Midjourney, die auch für Apps genutzt werden kann.

Laut Ian Sansavera, dem Video-Workflow-Architekten von Runway, hat das Start-up bei Gen-1 noch keine Entscheidung in der Open-Source-Frage getroffen. Die Software befinde sich noch am "Tag Null". Interessenten können sich hier auf eine Warteliste setzen lassen, das wissenschaftliche Paper soll demnächst veröffentlicht werden. Weiterführende Informationen gibt es auf der Projektseite.

Runway wird das Modell voraussichtlich in erster Linie für seine eigene Videosoftware entwickeln. Das Start-up ist auf einen KI-gestützten Videoeditor spezialisiert, der die Videobearbeitung durch KI-Tools vereinfachen und automatisieren soll. Im Herbst 2022 zeigte das Start-up eine Integration von Stable Diffusion in das eigene Toolkit. Runway wurde Anfang 2018 gegründet und hat seitdem rund 100 Millionen US-Dollar von Investoren eingesammelt.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Neben Runway arbeitet Google an Text-zu-Video-KI-Systemen, die Videos bearbeiten und von Grund auf generieren können. Dreamix ist dabei speziell auf die Videobearbeitung per Textbefehl spezialisiert. Auch Meta stellte schon ein Text-zu-Video-Modell vor.

Gen-1: Stable Diffusion Start-up stellt generative KI für Video vor

Runway erwartet rasche Fortschritte bei der KI-Videobearbeitung

Studie zeigt: KI-Systeme können mehr als sie über Prompts preisgeben

Offene Open-Source-Frage

OpenAI-CEO Sam Altman: Vergütung von Künstlern für KI-Nutzung ihres Stils wäre "cool"

KI-designte Crocs-Alternative aus dem 3D-Drucker geht in den Verkauf

Menschen bevorzugen laut Studie KI-Gedichte, wenn sie ihre KI-Herkunft nicht kennen

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Gen-1: Stable Diffusion Start-up stellt generative KI für Video vor

Runway erwartet rasche Fortschritte bei der KI-Videobearbeitung

Offene Open-Source-Frage

Artikel teilen

Bankverbindung