Nach vielen Monaten voller Gerüchte hat Midjourney nun sein erstes Videomodell vorgestellt. Es ist laut Midjourney ein Zwischenschritt auf dem Weg zu KI-Systemen, die ganze Welten in Echtzeit simulieren können sollen.
Midjourney hat Version 1 seines Videomodells veröffentlicht. Die neue Funktion namens "Image-to-Video" erlaubt es Nutzerinnen und Nutzern, aus bestehenden Midjourney-Bildern kurze Videos zu generieren. Ziel ist ein System, das langfristig ganze 3D-Welten in Echtzeit simulieren kann.
Von Midjourney generiertes Demo-Reel für die Animationsfunktion. | Video: Midjourney
Die Animation erfolgt über einen neuen "Animate"-Button in der Web-Oberfläche von Midjourney. Nutzer haben die Wahl zwischen einem automatischen Modus, bei dem das System selbstständig ein Bewegungsmuster generiert, und einem manuellen Modus, in dem die Bewegungen selbst beschrieben werden können.
Für unterschiedliche Anwendungsfälle gibt es zwei Einstellungen: "Low motion" eignet sich für Szenen mit ruhiger Kameraführung und langsamer Bewegung. "High motion" animiert sowohl Kamera als auch Subjekt stark, kann aber zu fehlerhaften Ergebnissen führen.
Die erstellten Videos lassen sich jeweils um rund vier Sekunden verlängern – bis zu viermal. Bei einer Verlängerung kann auch der Ursprungs-Prompt des Bildes weiter angepasst werden.
Zunächst wurde ein Bild eines rotbärtigen Mannes generiert, der im Regen tanzt. Dann wurde es automatisch animiert und mit dem Folgeprompt "tanzt und springt" um vier Sekunden manuell erweitert. | Video: Midjourney Animate prompted by THE DECODER
Auch Bilder, die außerhalb von Midjourney erzeugt wurden, können animiert werden. Dazu können sie in die Prompt-Leiste gezogen und als "Start Frame" markiert werden. Die Bewegung wird anschließend über einen Textprompt beschrieben.
Prompt: "Turning like a wheel" | Video: Midjourney Animate prompted by THE DECODER
Anschließend können die Videos als MP4-Datei mit einer Auflösung von 480p und 24 Bildern pro Sekunde heruntergeladen werden. Midjourney nennt keine offiziellen Zahlen zur Auflösung, Framerate und Bitrate des Videomodells. Ein Upscaling der Videos ist in Midjourney bisher nicht verfügbar.
Achtmal teurer als ein Bild
Die Funktion ist zunächst nur über die Web-Oberfläche verfügbar. Ein Video-Job kostet etwa das Achtfache eines Bildjobs und erzeugt vier Videos mit jeweils fünf Sekunden Länge. Umgerechnet entspricht dies etwa einem "Bild-Äquivalent" pro Sekunde Video. Laut Midjourney sei das rund 25-mal günstiger als vergleichbare Angebote am Markt.
Für Nutzer mit einem "Pro"-Abonnement oder höher testet das Unternehmen außerdem einen "Video Relax Mode", der zu günstigeren Konditionen führen könnte. Die Preisstruktur soll in den kommenden Wochen je nach Nutzung und Serverauslastung angepasst werden.
Midjourney betont, dass die Veröffentlichung des Videomodells ein notwendiger Zwischenschritt sei. Künftige Entwicklungen sollen Videomodelle, 3D-Komponenten und Echtzeitverarbeitung zu einem einheitlichen System vereinen. Erfahrungen aus der Videomodell-Entwicklung sollen zudem in die bestehenden Bildmodelle einfließen.
Wettbewerb und Klagen
Im Bereich KI-Video-Generierung gilt derzeit Googles neues Veo-3-Modell als führend. Es kann Videos von Grund auf erzeugen, ohne den Zwischenschritt über ein statisches Bild, und zudem passende Stimmen und Soundeffekte ergänzen.
Disney und Universal haben kürzlich eine gemeinsame Klage gegen Midjourney eingereicht. Die Studios werfen dem Unternehmen vor, trotz früherer Warnungen weiterhin urheberrechtlich geschützte Figuren wie Darth Vader und die Minions ohne Erlaubnis zu generieren. Sie fordern Schadenersatz, ein Verbot der weiteren Nutzung sowie ein Geschworenenverfahren. Midjourney hat bisher nicht öffentlich reagiert. Es ist nicht bekannt, auf welchen Daten das Videomodell trainiert wurde.