Genmo Mochi 1: Neuer Maßstab für offene Video-KI

Das KI-Start-up Genmo hat sein Videomodell Mochi 1 als Open-Source-Version veröffentlicht. Nach Angaben des Unternehmens ist es mit 10 Milliarden Parametern das bisher größte öffentlich verfügbare KI-Modell zur Videogenerierung.

Das Modell wurde von Grund auf neu entwickelt und setzt laut Genmo vor allem bei zwei kritischen Aspekten neue Maßstäbe: der Bewegungsqualität und der Genauigkeit, mit der Textanweisungen umgesetzt werden.

Video: Genmo

Mochi 1 kann Videos mit 30 Bildern pro Sekunde und einer Länge von bis zu 5,4 Sekunden erzeugen. Dabei simuliert es laut Genmo physikalische Effekte wie Flüssigkeiten sowie Fell- und Haarbewegungen besonders realistisch.

Video: Genmo

Nach Angaben des Unternehmens ist das Modell für fotorealistische Inhalte optimiert und weniger für animierte Inhalte geeignet. Bei extremen Bewegungen kann es gelegentlich zu Verzerrungen kommen.

In der aktuellen Version produziert Mochi 1 Videos mit einer Auflösung von 480p. Eine HD-Version mit 720p-Auflösung soll noch in diesem Jahr folgen.

Neue Architektur für effiziente Videogenerierung

Technisch basiert Mochi 1 auf einer neuartigen Architektur namens "Asymmetric Diffusion Transformer" (AsymmDiT). Diese verarbeitet Text- und Videoinhalte getrennt, wobei der visuelle Teil etwa viermal so viele Parameter nutzt wie der Textverarbeitungsteil.

Im Gegensatz zu anderen modernen Diffusionsmodellen verwendet Mochi 1 nur ein einziges Sprachmodell (T5-XXL) zur Verarbeitung der Prompts. Das soll die Effizienz steigern, ein wissenschaftliches Paper mit tiefergehenden Informationen haben die Entwickler:innen allerdings noch nicht veröffentlicht.

Empfehlung

KI in der Praxis

OpenAI macht bei GPT-5 eine Rolle rückwärts

Bei der Umsetzung von Text-Prompts erreicht das Modell in Benchmarks eine höhere Genauigkeit als die Konkurrenz, während es bei der Bewegungsqualität komplexe physikalische Effekte realistischer simulieren kann.

Balkendiagramm: Vergleich von 9 KI-Videomodellen anhand ihrer Motion Quality (Elo Score), Werte von 750 bis 1100. — Im Vergleich verschiedener KI-Videomodelle erreicht Genmo Mochi 1 die höchste Bewegungsqualität. Die Elo-Scores zeigen eine stetige Verbesserung der Technologie von Open-Sora bis zu den neuesten Modellen. | Bild: Genmo

Balkendiagramm: Vergleich der Prompt-Adherence verschiedener KI-Modelle, von VideoCrafter (40%) bis Genmo Mochi 1 (80%), aufsteigend sortiert. — Die neuesten KI-Modelle zeigen eine deutlich höhere Prompt-Befolgungsrate als frühere Versionen. Genmo Mochi 1 erreicht mit fast 80% den Spitzenwert bei der korrekten Umsetzung von Prompts. | Bild: Genmo

Laut Selbstbeschreibung auf der offiziellen Website fungiere Mochi 1 als Weltmodell. An einer solchen Fähigkeit von Videogeneratoren ließen kürzliche Untersuchungen zweifeln.

Unsere Videogenerierungsmodelle fungieren als Weltsimulatoren und treiben Durchbrüche in verkörperter Künstlicher Intelligenz voran, indem sie unendliche Erkundungen in synthetischen Realitäten ermöglichen. Video ist das ultimative Medium für die Mensch-KI-Interaktion und integriert nahtlos Text, Audio, Bilder und 3D in ein einheitliches Erlebnis.

Genmo

28,4 Millionen Dollar Finanzierung

Parallel zur Veröffentlichung des Modells gibt Genmo eine von NEA angeführte Series-A-Finanzierungsrunde über 28,4 Millionen US-Dollar bekannt. Das Team von Genmo besteht aus Kernmitgliedern wichtiger KI-Projekte wie DDPM, DreamFusion und Emu Video.

Die Gewichte und der Code des Modells stehen unter der Apache-2.0-Lizenz auf Hugging Face und GitHub zur Verfügung. Interessierte können das Modell auch kostenlos über einen rudimentären Playground auf der Genmo-Website ausprobieren, auf der auch zahlreiche Beispiele aus der Community inklusive deren Prompt angezeigt werden.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Kommerziell immer noch besser

Auch wenn die Qualität für ein offenes Videomodell durchaus zu beeindrucken weiß, haben kommerzielle Modelle wie Runway Gen-3 derzeit noch die Nase vorn. Das darauf basierende Tool kann sowohl längere als auch höher auflösende Clips produzieren und unterstützt Zusatzfunktionen wie Bildprompts, virtuelle Kameraführungen oder die Übertragung von Mimik auf einen KI-Charakter. Weitere Angebote gibt es von Kling, Vidu und MiniMax. Auch Meta hat kürzlich mit Movie Gen ein neues Videomodell vorgestellt.

Genmo Mochi 1: Neuer Maßstab für offene Video-KI

Neue Architektur für effiziente Videogenerierung

OpenAI macht bei GPT-5 eine Rolle rückwärts

28,4 Millionen Dollar Finanzierung

Kommerziell immer noch besser

Luma AI stellt Ray3 vor: KI-Videomodell erzeugt erstmals HDR-Inhalte und kann „denken“

Alibaba veröffentlicht Wan2.2: Neues KI-Modell erzeugt 720P-Videos auf Consumer-GPU

Google bringt KI-Videogenerator Veo 2 in die Gemini-App

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

OpenAI: GPT-5 soll deutlich weniger politisch voreingenommen sein

OpenAI entdeckt nach Sora-App-Launch plötzlich das Urheberrecht

Genmo Mochi 1: Neuer Maßstab für offene Video-KI

Neue Architektur für effiziente Videogenerierung

28,4 Millionen Dollar Finanzierung

Kommerziell immer noch besser

Artikel teilen

Bankverbindung