Inhalt
summary Zusammenfassung

Nach vielen Monaten voller Gerüchte hat Midjourney nun sein erstes Videomodell vorgestellt. Es ist laut Midjourney ein Zwischenschritt auf dem Weg zu KI-Systemen, die ganze Welten in Echtzeit simulieren können sollen.

Anzeige

Midjourney hat Version 1 seines Videomodells veröffentlicht. Die neue Funktion namens "Image-to-Video" erlaubt es Nutzerinnen und Nutzern, aus bestehenden Midjourney-Bildern kurze Videos zu generieren. Ziel ist ein System, das langfristig ganze 3D-Welten in Echtzeit simulieren kann.

Von Midjourney generiertes Demo-Reel für die Animationsfunktion. | Video: Midjourney

Die Animation erfolgt über einen neuen "Animate"-Button in der Web-Oberfläche von Midjourney. Nutzer haben die Wahl zwischen einem automatischen Modus, bei dem das System selbstständig ein Bewegungsmuster generiert, und einem manuellen Modus, in dem die Bewegungen selbst beschrieben werden können.

Anzeige
Anzeige

Für unterschiedliche Anwendungsfälle gibt es zwei Einstellungen: "Low motion" eignet sich für Szenen mit ruhiger Kameraführung und langsamer Bewegung. "High motion" animiert sowohl Kamera als auch Subjekt stark, kann aber zu fehlerhaften Ergebnissen führen.

Die erstellten Videos lassen sich jeweils um rund vier Sekunden verlängern – bis zu viermal. Bei einer Verlängerung kann auch der Ursprungs-Prompt des Bildes weiter angepasst werden.

Zunächst wurde ein Bild eines rotbärtigen Mannes generiert, der im Regen tanzt. Dann wurde es automatisch animiert und mit dem Folgeprompt "tanzt und springt" um vier Sekunden manuell erweitert. | Video: Midjourney Animate prompted by THE DECODER

Auch Bilder, die außerhalb von Midjourney erzeugt wurden, können animiert werden. Dazu können sie in die Prompt-Leiste gezogen und als "Start Frame" markiert werden. Die Bewegung wird anschließend über einen Textprompt beschrieben.

Prompt: "Turning like a wheel" | Video: Midjourney Animate prompted by THE DECODER

Empfehlung

Anschließend können die Videos als MP4-Datei mit einer Auflösung von 480p und 24 Bildern pro Sekunde heruntergeladen werden. Midjourney nennt keine offiziellen Zahlen zur Auflösung, Framerate und Bitrate des Videomodells. Ein Upscaling der Videos ist in Midjourney bisher nicht verfügbar.

Achtmal teurer als ein Bild

Die Funktion ist zunächst nur über die Web-Oberfläche verfügbar. Ein Video-Job kostet etwa das Achtfache eines Bildjobs und erzeugt vier Videos mit jeweils fünf Sekunden Länge. Umgerechnet entspricht dies etwa einem "Bild-Äquivalent" pro Sekunde Video. Laut Midjourney sei das rund 25-mal günstiger als vergleichbare Angebote am Markt.

Für Nutzer mit einem "Pro"-Abonnement oder höher testet das Unternehmen außerdem einen "Video Relax Mode", der zu günstigeren Konditionen führen könnte. Die Preisstruktur soll in den kommenden Wochen je nach Nutzung und Serverauslastung angepasst werden.

Midjourney betont, dass die Veröffentlichung des Videomodells ein notwendiger Zwischenschritt sei. Künftige Entwicklungen sollen Videomodelle, 3D-Komponenten und Echtzeitverarbeitung zu einem einheitlichen System vereinen. Erfahrungen aus der Videomodell-Entwicklung sollen zudem in die bestehenden Bildmodelle einfließen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Wettbewerb und Klagen

Im Bereich KI-Video-Generierung gilt derzeit Googles neues Veo-3-Modell als führend. Es kann Videos von Grund auf erzeugen, ohne den Zwischenschritt über ein statisches Bild, und zudem passende Stimmen und Soundeffekte ergänzen.

Disney und Universal haben kürzlich eine gemeinsame Klage gegen Midjourney eingereicht. Die Studios werfen dem Unternehmen vor, trotz früherer Warnungen weiterhin urheberrechtlich geschützte Figuren wie Darth Vader und die Minions ohne Erlaubnis zu generieren. Sie fordern Schadenersatz, ein Verbot der weiteren Nutzung sowie ein Geschworenenverfahren. Midjourney hat bisher nicht öffentlich reagiert. Es ist nicht bekannt, auf welchen Daten das Videomodell trainiert wurde.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Midjourney hat Version 1 seines Videomodells vorgestellt: Nutzerinnen und Nutzer können mit der neuen "Image-to-Video"-Funktion aus Bildern kurze Videos generieren und verschiedene Animationsmodi auswählen.
  • Die Videos lassen sich um jeweils etwa vier Sekunden verlängern, die Animation erfolgt entweder automatisch oder anhand von Nutzerangaben. Auch externe Bilder können animiert und per Textprompt gesteuert werden.
  • Ein Video-Job kostet rund das Achtfache eines Bildjobs und erzeugt vier Videos mit je fünf Sekunden Länge. Midjourney-Gründer David Holz sieht das Modell als Zwischenschritt hin zu Systemen, die langfristig komplette 3D-Welten in Echtzeit simulieren können.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!