Der chinesische Technologiekonzern Tencent präsentiert mit HunyuanVideo ein Open-Source-Modell für KI-Videogenerierung, das mit proprietären Lösungen konkurrieren soll.
Tencent hat mit HunyuanVideo ein neues Open-Source-Modell für KI-gestützte Videogenerierung vorgestellt. Mit über 13 Milliarden Parametern ist es nach Angaben des Unternehmens das größte öffentlich verfügbare Modell seiner Art.
Laut der technischen Dokumentation übertrifft HunyuanVideo bestehende Systeme wie Runway Gen-3 und Luma 1.6 sowie drei führende chinesische Videogenerierungsmodelle. Besonders bei der Bewegungsqualität erzielt das System die besten Gesamtergebnisse.
HunyuanVideo setzt auf stufenweises Training
Das Modell beherrscht nach Angaben von Tencent ein breites Spektrum an Aufgaben: Es kann Videos aus Text generieren, Bilder in Videos umwandeln und Avatar-Animationen erstellen. Auch die Generierung von Audio zu Videos gehört zum Funktionsumfang.
Das Training des Modells erfolgt nach Angaben der Entwickler in mehreren Stufen. Zunächst wird es mit Bildern in niedriger Auflösung (256 Pixel) trainiert, gefolgt von einem Mix-Scale-Training mit höheren Auflösungen.
Anschließend durchläuft das System ein progressives Video- und Bild-Training bei dem die Auflösung und Videolänge schrittweise erhöht werden. Diese Methode verbessere die Konvergenz und Qualität der generierten Videos, so das Team.
Tencent sieht breites Spektrum an Anwendungen
Die Veröffentlichung als Open Source soll nach Angaben von Tencent dazu beitragen, die Lücke zwischen geschlossenen und offenen Systemen zu schließen. Der Code ist auf GitHub verfügbar, und das Unternehmen plant eine kontinuierliche Weiterentwicklung des Systems mit neuen Funktionen.
Konkurrenz macht Tencent damit nicht nur Anbietern wie Runway oder OpenAI, das weiter an Sora arbeitet. Insbesondere von chinesischen Herstellern gibt es einige leistungsfähige Videomodelle, darunter KLING.