Inhalt
summary Zusammenfassung

Meta hat sein bisher fortschrittlichstes KI-Medienmodell vorgestellt. "Movie Gen" kann Videos, Bilder und Audio generieren sowie Videos bearbeiten. Das Unternehmen sieht darin großes Potenzial für neue Anwendungen.

Anzeige

Das Herzstück von Movie Gen bildet ein Transformer-Modell mit 30 Milliarden Parametern, das Videos und Bilder aus Textbeschreibungen erzeugen kann. Laut Meta ist das Modell in der Lage, Videos mit einer Länge von bis zu 16 Sekunden bei 16 Bildern pro Sekunde zu generieren.

Die Videos können in verschiedenen Seitenverhältnissen (1:1, 9:16, 16:9) und mit einer Auflösung von 768 × 768 Pixeln erstellt werden. Ein zusätzlicher Upscaler kann die Auflösung auf Full HD (1080p) erhöhen.

Movie-Gen soll fotorealistische Szenen nur aus Text erzeugen können. | Video: Meta AI

Anzeige
Anzeige

Für die Audiogenerierung ist ein separates Modell mit 13 Milliarden Parametern zuständig. Es kann zu einem Video passenden Ton, Hintergrundmusik und Geräuscheffekte mit einer maximalen Länge von 45 Sekunden und einer Abtastrate von 48 kHz erzeugen.

Beispiel Audiogenerierung | Video: Meta AI

Darüber hinaus verfügt Movie Gen über eine Komponente zur Videobearbeitung, die bestehende Videos anhand von Textanweisungen verändern kann. Eine weitere Funktion ermöglicht die Erstellung personalisierter Videos durch die Kombination eines Bildes einer Person mit einer Textbeschreibung.

Beispiel Video-Editing | Video: Meta AI

Meta sieht Movie Gen vor der Konkurrenz

Laut Meta schneidet Movie Gen in menschlichen Bewertungen besser ab als vergleichbare Modelle anderer Unternehmen wie Runway, Sora, LumaLabs, Kling und Pika. Der Abstand zu Sora und Kling fällt dabei am geringsten aus. Allerdings soll Sora konsistente Videos von bis zu einer Minute erzeugen können, bei einer höheren Framerate, als sie Meta für Movie Gen angibt.

Empfehlung
Tabelle vergleicht Movie Gen Video mit LumaLabs, OpenAI Sora und Kling1.5 in verschiedenen Videogenerierungskategorien. Movie Gen führt in mehreren Bereichen.
Metas Movie Gen Video übertrifft in vielen Aspekten konkurrierende KI-Videogeneratoren. Besonders bei Realismus und Ästhetik zeigt das System starke Leistungen im Vergleich zur Konkurrenz. Es liegt sogar knapp vor OpenAIs bislang gezeigten Sora-Beispielen. | Bild: Meta AI

Meta gibt an, die Modelle mit einer Kombination aus lizenzierten und öffentlich verfügbaren Datensätzen trainiert zu haben. Das Videogenerierungsmodell wurde mit etwa 100 Millionen Videos und einer Milliarde Bildern vortrainiert. Für das Audio-Modell wurden etwa eine Million Stunden Audiodaten verwendet. Weitere technische Details hat Meta in einem Forschungspapier veröffentlicht.

Movie Gen wurde laut Meta für Forschungszwecke entwickelt und ist derzeit nicht öffentlich verfügbar. Das Unternehmen plant, eng mit Filmemachern und Kreativen zusammenzuarbeiten, um deren Feedback zu integrieren. Ein möglicher Veröffentlichungstermin wurde nicht genannt.

Dritte Generation von Metas KI-Medienmodellen

Meta bezeichnet Movie Gen als dritte Generation seiner KI-Medienmodelle. Die erste Generation umfasste die "Make-A-Video"-Modelle zur Erstellung von Bildern, Audio, Video und 3D-Animationen. Die zweite Generation bestand aus den "Llama Image"-Modellen zur Bildgenerierung und -bearbeitung.

Laut Meta kombiniert Movie Gen all diese Modalitäten und ermöglicht eine präzisere Kontrolle. Das Unternehmen geht davon aus, dass die Modelle verschiedene neue Produkte ermöglichen könnten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Meta räumt ein, dass die aktuellen Modelle noch Einschränkungen haben. Insbesondere die Inferenzzeit und die Qualität der Modelle könnten durch weiteres Skalieren verbessert werden. Auch bei komplexer Geometrie, Objektmanipulation und Physik gebe es noch Herausforderungen. Die Audio-Synchronisation kann bei dichten oder kleinen Bewegungen ebenfalls noch Schwierigkeiten bereiten.

Meta betont, dass die Technologie Künstler und Animatoren nicht ersetzen, sondern neue Ausdrucksmöglichkeiten schaffen soll. Als mögliche Anwendungen nennt Meta animierte "Ein Tag im Leben"-Videos für Instagram Reels oder personalisierte Geburtstagsgrüße für WhatsApp.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta stellt mit "Movie Gen" ein KI-Medienmodell vor, das Videos, Bilder und Audio aus Textbeschreibungen erzeugen sowie Videos bearbeiten kann. In menschlichen Bewertungen schneidet Movie Gen besser ab als vergleichbare Modelle von Runway, Sora, LumaLabs, Kling und Pika.
  • Das Herzstück bildet ein Transformer-Modell mit 30 Milliarden Parametern für die Videogenerierung und ein separates 13-Milliarden-Parameter-Modell für die Audioerzeugung.
  • Meta trainierte die Modelle mit einer Kombination aus lizenzierten und öffentlichen Datensätzen. Movie Gen ist derzeit nur für Forschungszwecke verfügbar, ein Veröffentlichungstermin wurde nicht genannt.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!