MiniMax hat die zweite Generation seines Video-KI-Modells Hailuo 02 veröffentlicht. Mit einer neuen Trainingsmethode habe man nicht nur die Leistung steigern, sondern auch die Kosten senken können.
Das Modell basiert auf einer neuen Architektur namens "Noise-aware Compute Redistribution" (NCR), die nach Angaben der Entwickler:innen die Trainings- und Inferenz-Effizienz um das 2,5-fache verbessert.

Die NCR-Architektur erreicht dies, indem sie sehr lange Video-Sequenzen je nach Trainingsphase unterschiedlich behandelt. Zu Beginn des Trainings (wenn viel künstliches Rauschen in die Videos eingefügt wird) werden sie maximal komprimiert, gegen Ende des Trainings (bei klaren Videos ohne Rauschen) in voller Auflösung verarbeitet.
MiniMax hat im Vergleich zum Vorgänger-Modell die Parameter-Anzahl um das Dreifache und die Datenmenge um das Vierfache erhöht. Gleichzeitig sollen die Qualität und Vielfalt der Trainingsdaten deutlich gestiegen sein. Genaue Angaben zur Parameterzahl oder zur Menge der Trainingsdaten bleiben jedoch aus.
Video: MiniMax
Das Ergebnis sind laut MiniMax deutliche Verbesserungen bei der Befolgung komplexer Prompts und der Darstellung physikalischer Vorgänge. Das Unternehmen behauptet, Hailuo 02 sei derzeit das einzige Modell weltweit, das hochkomplexe Szenen wie Gymnastikübungen korrekt darstellen könne.
Drei Versionen mit bis zu 1080p verfügbar
Hailuo 02 ist in drei Auflösungs-Varianten verfügbar: 768p mit sechs Sekunden Videolänge, 768p mit zehn Sekunden und 1080p mit sechs Sekunden. Das Vorgänger-Modell war auf 720p-Videos mit 6 Sekunden Länge und 25 fps begrenzt.

Im Benchmark Artificial Analysis Video Arena, in der Nutzer:innen die Ausgaben verschiedener Video-KIs bewerten müssen, erreichte eine Version des Modells den zweiten Platz in der Kategorie Image-to-Video, nur geschlagen vom kürzlich präsentierten Bytedance-Modell Seedance.
3,7 Milliarden Videos seit Marktstart generiert
Seit dem Start als Demo-Webseite im August letztes Jahr haben Nutzer:innen über die Hailuo-Video-Plattform nach Unternehmensangaben mehr als 3,7 Milliarden Videos generiert. MiniMax beschreibt den ursprünglichen Launch als "sehr zufällig". Er habe jedoch unerwartet große Aufmerksamkeit von Kreativen weltweit erhalten.
Das Modell ist über Web-Interface, mobile App und per API verfügbar. Über letztere kosten sechs Sekunden 768p-Video 0,28 US-Dollar, in 1080p-Auflösung 0,49 US-Dollar. Damit ist MiniMax teils deutlich günstiger als die Konkurrenz – ein achtsekündiges 1080p-Video mit Google Veo 3 etwa kostet je nach Tarif um die drei US-Dollar.
Für die Zukunft plant MiniMax Verbesserungen bei der Generierungsgeschwindigkeit und Stabilität sowie mehr Funktionen über die grundlegende Text-zu-Video- und Bild-zu-Video-Generierung hinaus. Das ist auch dringend nötig, denn andere etablierte KI-Video-Dienste wie Runway bieten schließlich längst Features wie Kamerafahrten.
Der Launch von Hailuo 02 ist Teil der fünftägigen "MiniMax-Week", in der das chinesische Start-up bereits ein neues Open-Source-Sprachmodell, MiniMax-M1, samt Parameterzahl und einem technischen Paper veröffentlicht hat. Im Gegensatz dazu bleiben Details zur Trainingsarchitektur von Hailuo 02 im Dunkeln.