Skip to content

Hailuo 02: MiniMax verbessert Video-KI und ist deutlich günstiger als Google

Image description
MiniMax

MiniMax hat die zweite Generation seines Video-KI-Modells Hailuo 02 veröffentlicht. Mit einer neuen Trainingsmethode habe man nicht nur die Leistung steigern, sondern auch die Kosten senken können.

Das Modell basiert auf einer neuen Architektur namens "Noise-aware Compute Redistribution" (NCR), die nach Angaben der Entwickler:innen die Trainings- und Inferenz-Effizienz um das 2,5-fache verbessert.

Minimax-Diagramm: Gemeinsames Training von Downsample und Re-noise zur frühen Kompression ultra-langer Video-Tokens.
Für Hailuo 02 spielt die NCR-Architektur offenbar eine zentrale Rolle – viel verrät MiniMax jedoch nicht darüber. | Bild: MiniMax

Die NCR-Architektur erreicht dies, indem sie sehr lange Video-Sequenzen je nach Trainingsphase unterschiedlich behandelt. Zu Beginn des Trainings (wenn viel künstliches Rauschen in die Videos eingefügt wird) werden sie maximal komprimiert, gegen Ende des Trainings (bei klaren Videos ohne Rauschen) in voller Auflösung verarbeitet.

MiniMax hat im Vergleich zum Vorgänger-Modell die Parameter-Anzahl um das Dreifache und die Datenmenge um das Vierfache erhöht. Gleichzeitig sollen die Qualität und Vielfalt der Trainingsdaten deutlich gestiegen sein. Genaue Angaben zur Parameterzahl oder zur Menge der Trainingsdaten bleiben jedoch aus.

Video: MiniMax

Das Ergebnis sind laut MiniMax deutliche Verbesserungen bei der Befolgung komplexer Prompts und der Darstellung physikalischer Vorgänge. Das Unternehmen behauptet, Hailuo 02 sei derzeit das einzige Modell weltweit, das hochkomplexe Szenen wie Gymnastikübungen korrekt darstellen könne.

Drei Versionen mit bis zu 1080p verfügbar

Hailuo 02 ist in drei Auflösungs-Varianten verfügbar: 768p mit sechs Sekunden Videolänge, 768p mit zehn Sekunden und 1080p mit sechs Sekunden. Das Vorgänger-Modell war auf 720p-Videos mit 6 Sekunden Länge und 25 fps begrenzt.

Tabelle führender Bild-zu-Video-KI-Modelle mit ELO-Werten: Seedance 1.0 führt mit 1351 Punkten, 95%-CI dargestellt.
Im Vergleich durch Nutzer:innen schneidet Hailuo 02 sogar besser ab als Google Veo 3, letzteres bietet jedoch auch native Audiogenerierung. | Screenshot: THE DECODER

Im Benchmark Artificial Analysis Video Arena, in der Nutzer:innen die Ausgaben verschiedener Video-KIs bewerten müssen, erreichte eine Version des Modells den zweiten Platz in der Kategorie Image-to-Video, nur geschlagen vom kürzlich präsentierten Bytedance-Modell Seedance.

3,7 Milliarden Videos seit Marktstart generiert

Seit dem Start als Demo-Webseite im August letztes Jahr haben Nutzer:innen über die Hailuo-Video-Plattform nach Unternehmensangaben mehr als 3,7 Milliarden Videos generiert. MiniMax beschreibt den ursprünglichen Launch als "sehr zufällig". Er habe jedoch unerwartet große Aufmerksamkeit von Kreativen weltweit erhalten.

Das Modell ist über Web-Interface, mobile App und per API verfügbar. Über letztere kosten sechs Sekunden 768p-Video 0,28 US-Dollar, in 1080p-Auflösung 0,49 US-Dollar. Damit ist MiniMax teils deutlich günstiger als die Konkurrenz – ein achtsekündiges 1080p-Video mit Google Veo 3 etwa kostet je nach Tarif um die drei US-Dollar.

Für die Zukunft plant MiniMax Verbesserungen bei der Generierungsgeschwindigkeit und Stabilität sowie mehr Funktionen über die grundlegende Text-zu-Video- und Bild-zu-Video-Generierung hinaus. Das ist auch dringend nötig, denn andere etablierte KI-Video-Dienste wie Runway bieten schließlich längst Features wie Kamerafahrten.

Der Launch von Hailuo 02 ist Teil der fünftägigen "MiniMax-Week", in der das chinesische Start-up bereits ein neues Open-Source-Sprachmodell, MiniMax-M1, samt Parameterzahl und einem technischen Paper veröffentlicht hat. Im Gegensatz dazu bleiben Details zur Trainingsarchitektur von Hailuo 02 im Dunkeln.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: MiniMax

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren