Inhalt
summary Zusammenfassung

MiniMax hat die zweite Generation seines Video-KI-Modells Hailuo 02 veröffentlicht. Mit einer neuen Trainingsmethode habe man nicht nur die Leistung steigern, sondern auch die Kosten senken können.

Anzeige

Das Modell basiert auf einer neuen Architektur namens "Noise-aware Compute Redistribution" (NCR), die nach Angaben der Entwickler:innen die Trainings- und Inferenz-Effizienz um das 2,5-fache verbessert.

Minimax-Diagramm: Gemeinsames Training von Downsample und Re-noise zur frühen Kompression ultra-langer Video-Tokens.
Für Hailuo 02 spielt die NCR-Architektur offenbar eine zentrale Rolle – viel verrät MiniMax jedoch nicht darüber. | Bild: MiniMax

Die NCR-Architektur erreicht dies, indem sie sehr lange Video-Sequenzen je nach Trainingsphase unterschiedlich behandelt. Zu Beginn des Trainings (wenn viel künstliches Rauschen in die Videos eingefügt wird) werden sie maximal komprimiert, gegen Ende des Trainings (bei klaren Videos ohne Rauschen) in voller Auflösung verarbeitet.

MiniMax hat im Vergleich zum Vorgänger-Modell die Parameter-Anzahl um das Dreifache und die Datenmenge um das Vierfache erhöht. Gleichzeitig sollen die Qualität und Vielfalt der Trainingsdaten deutlich gestiegen sein. Genaue Angaben zur Parameterzahl oder zur Menge der Trainingsdaten bleiben jedoch aus.

Anzeige
Anzeige

Video: MiniMax

Das Ergebnis sind laut MiniMax deutliche Verbesserungen bei der Befolgung komplexer Prompts und der Darstellung physikalischer Vorgänge. Das Unternehmen behauptet, Hailuo 02 sei derzeit das einzige Modell weltweit, das hochkomplexe Szenen wie Gymnastikübungen korrekt darstellen könne.

Drei Versionen mit bis zu 1080p verfügbar

Hailuo 02 ist in drei Auflösungs-Varianten verfügbar: 768p mit sechs Sekunden Videolänge, 768p mit zehn Sekunden und 1080p mit sechs Sekunden. Das Vorgänger-Modell war auf 720p-Videos mit 6 Sekunden Länge und 25 fps begrenzt.

Tabelle führender Bild-zu-Video-KI-Modelle mit ELO-Werten: Seedance 1.0 führt mit 1351 Punkten, 95%-CI dargestellt.
Im Vergleich durch Nutzer:innen schneidet Hailuo 02 sogar besser ab als Google Veo 3, letzteres bietet jedoch auch native Audiogenerierung. | Screenshot: THE DECODER

Im Benchmark Artificial Analysis Video Arena, in der Nutzer:innen die Ausgaben verschiedener Video-KIs bewerten müssen, erreichte eine Version des Modells den zweiten Platz in der Kategorie Image-to-Video, nur geschlagen vom kürzlich präsentierten Bytedance-Modell Seedance.

3,7 Milliarden Videos seit Marktstart generiert

Seit dem Start als Demo-Webseite im August letztes Jahr haben Nutzer:innen über die Hailuo-Video-Plattform nach Unternehmensangaben mehr als 3,7 Milliarden Videos generiert. MiniMax beschreibt den ursprünglichen Launch als "sehr zufällig". Er habe jedoch unerwartet große Aufmerksamkeit von Kreativen weltweit erhalten.

Empfehlung

Das Modell ist über Web-Interface, mobile App und per API verfügbar. Über letztere kosten sechs Sekunden 768p-Video 0,28 US-Dollar, in 1080p-Auflösung 0,49 US-Dollar. Damit ist MiniMax teils deutlich günstiger als die Konkurrenz – ein achtsekündiges 1080p-Video mit Google Veo 3 etwa kostet je nach Tarif um die drei US-Dollar.

Für die Zukunft plant MiniMax Verbesserungen bei der Generierungsgeschwindigkeit und Stabilität sowie mehr Funktionen über die grundlegende Text-zu-Video- und Bild-zu-Video-Generierung hinaus. Das ist auch dringend nötig, denn andere etablierte KI-Video-Dienste wie Runway bieten schließlich längst Features wie Kamerafahrten.

Der Launch von Hailuo 02 ist Teil der fünftägigen "MiniMax-Week", in der das chinesische Start-up bereits ein neues Open-Source-Sprachmodell, MiniMax-M1, samt Parameterzahl und einem technischen Paper veröffentlicht hat. Im Gegensatz dazu bleiben Details zur Trainingsarchitektur von Hailuo 02 im Dunkeln.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • MiniMax hat sein neues Video-KI-Modell Hailuo 02 vorgestellt, das mit einer speziellen Architektur laut Unternehmen die Trainings- und Inferenz-Effizienz um das 2,5-fache steigert und komplexe Prompts sowie physikalische Vorgänge besser umsetzen soll als das Vorgängermodell.
  • Das Modell gibt es in drei Varianten bis 1080p und sechs Sekunden Videolänge; Nutzer:innen haben seit dem Marktstart mehr als 3,7 Milliarden Videos generiert. In Nutzerbewertungen schneidet Hailuo 02 besser ab als Google Veo 3, das allerdings native Audiogenerierung bietet.
  • Hailuo 02 ist über Web, App und API verfügbar und kostet pro sechs Sekunden 1080p-Video 0,49 US-Dollar – deutlich günstiger als manche Konkurrenzangebote. Für die Zukunft plant MiniMax weitere Funktionen und Verbesserungen bei Geschwindigkeit und Stabilität.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!