Inhalt
summary Zusammenfassung

Das KI-Start-up Genmo hat sein Videomodell Mochi 1 als Open-Source-Version veröffentlicht. Nach Angaben des Unternehmens ist es mit 10 Milliarden Parametern das bisher größte öffentlich verfügbare KI-Modell zur Videogenerierung.

Anzeige

Das Modell wurde von Grund auf neu entwickelt und setzt laut Genmo vor allem bei zwei kritischen Aspekten neue Maßstäbe: der Bewegungsqualität und der Genauigkeit, mit der Textanweisungen umgesetzt werden.

Video: Genmo

Mochi 1 kann Videos mit 30 Bildern pro Sekunde und einer Länge von bis zu 5,4 Sekunden erzeugen. Dabei simuliert es laut Genmo physikalische Effekte wie Flüssigkeiten sowie Fell- und Haarbewegungen besonders realistisch.

Anzeige
Anzeige

Video: Genmo

Nach Angaben des Unternehmens ist das Modell für fotorealistische Inhalte optimiert und weniger für animierte Inhalte geeignet. Bei extremen Bewegungen kann es gelegentlich zu Verzerrungen kommen.

In der aktuellen Version produziert Mochi 1 Videos mit einer Auflösung von 480p. Eine HD-Version mit 720p-Auflösung soll noch in diesem Jahr folgen.

Neue Architektur für effiziente Videogenerierung

Technisch basiert Mochi 1 auf einer neuartigen Architektur namens "Asymmetric Diffusion Transformer" (AsymmDiT). Diese verarbeitet Text- und Videoinhalte getrennt, wobei der visuelle Teil etwa viermal so viele Parameter nutzt wie der Textverarbeitungsteil.

Im Gegensatz zu anderen modernen Diffusionsmodellen verwendet Mochi 1 nur ein einziges Sprachmodell (T5-XXL) zur Verarbeitung der Prompts. Das soll die Effizienz steigern, ein wissenschaftliches Paper mit tiefergehenden Informationen haben die Entwickler:innen allerdings noch nicht veröffentlicht.

Empfehlung

Bei der Umsetzung von Text-Prompts erreicht das Modell in Benchmarks eine höhere Genauigkeit als die Konkurrenz, während es bei der Bewegungsqualität komplexe physikalische Effekte realistischer simulieren kann.

Balkendiagramm: Vergleich von 9 KI-Videomodellen anhand ihrer Motion Quality (Elo Score), Werte von 750 bis 1100.
Im Vergleich verschiedener KI-Videomodelle erreicht Genmo Mochi 1 die höchste Bewegungsqualität. Die Elo-Scores zeigen eine stetige Verbesserung der Technologie von Open-Sora bis zu den neuesten Modellen. | Bild: Genmo
Balkendiagramm: Vergleich der Prompt-Adherence verschiedener KI-Modelle, von VideoCrafter (40%) bis Genmo Mochi 1 (80%), aufsteigend sortiert.
Die neuesten KI-Modelle zeigen eine deutlich höhere Prompt-Befolgungsrate als frühere Versionen. Genmo Mochi 1 erreicht mit fast 80% den Spitzenwert bei der korrekten Umsetzung von Prompts. | Bild: Genmo

Laut Selbstbeschreibung auf der offiziellen Website fungiere Mochi 1 als Weltmodell. An einer solchen Fähigkeit von Videogeneratoren ließen kürzliche Untersuchungen zweifeln.

Unsere Videogenerierungsmodelle fungieren als Weltsimulatoren und treiben Durchbrüche in verkörperter Künstlicher Intelligenz voran, indem sie unendliche Erkundungen in synthetischen Realitäten ermöglichen. Video ist das ultimative Medium für die Mensch-KI-Interaktion und integriert nahtlos Text, Audio, Bilder und 3D in ein einheitliches Erlebnis.

Genmo

28,4 Millionen Dollar Finanzierung

Parallel zur Veröffentlichung des Modells gibt Genmo eine von NEA angeführte Series-A-Finanzierungsrunde über 28,4 Millionen US-Dollar bekannt. Das Team von Genmo besteht aus Kernmitgliedern wichtiger KI-Projekte wie DDPM, DreamFusion und Emu Video.

Die Gewichte und der Code des Modells stehen unter der Apache-2.0-Lizenz auf Hugging Face und GitHub zur Verfügung. Interessierte können das Modell auch kostenlos über einen rudimentären Playground auf der Genmo-Website ausprobieren, auf der auch zahlreiche Beispiele aus der Community inklusive deren Prompt angezeigt werden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Kommerziell immer noch besser

Auch wenn die Qualität für ein offenes Videomodell durchaus zu beeindrucken weiß, haben kommerzielle Modelle wie Runway Gen-3 derzeit noch die Nase vorn. Das darauf basierende Tool kann sowohl längere als auch höher auflösende Clips produzieren und unterstützt Zusatzfunktionen wie Bildprompts, virtuelle Kameraführungen oder die Übertragung von Mimik auf einen KI-Charakter. Weitere Angebote gibt es von Kling, Vidu und MiniMax. Auch Meta hat kürzlich mit Movie Gen ein neues Videomodell vorgestellt.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Genmo hat sein KI-Videomodell Mochi 1 mit 10 Milliarden Parametern als bislang größtes öffentlich verfügbares Modell zur Videogenerierung veröffentlicht. Es setzt laut Genmo bei Bewegungsqualität und Umsetzung von Textanweisungen neue Maßstäbe.
  • Mochi 1 kann Videos mit 30 FPS und bis zu 5,4 Sekunden Länge in 480p erzeugen. Es simuliert physikalische Effekte wie Flüssigkeiten sowie Fell- und Haarbewegungen realistisch, ist aber für fotorealistische Inhalte optimiert. Eine 720p-Version soll noch 2024 folgen.
  • Das Modell basiert auf einer neuen "Asymmetric Diffusion Transformer"-Architektur, die Text und Video getrennt verarbeitet. In Benchmarks erreicht es eine höhere Genauigkeit bei der Umsetzung von Prompts und realistischere Bewegungen als Konkurrenzmodelle. Code und Gewichte stehen unter Apache-2.0-Lizenz zur Verfügung.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!