Inhalt
summary Zusammenfassung

Der chinesische Technologiekonzern Tencent präsentiert mit HunyuanVideo ein Open-Source-Modell für KI-Videogenerierung, das mit proprietären Lösungen konkurrieren soll.

Anzeige

Tencent hat mit HunyuanVideo ein neues Open-Source-Modell für KI-gestützte Videogenerierung vorgestellt. Mit über 13 Milliarden Parametern ist es nach Angaben des Unternehmens das größte öffentlich verfügbare Modell seiner Art.

Laut der technischen Dokumentation übertrifft HunyuanVideo bestehende Systeme wie Runway Gen-3 und Luma 1.6 sowie drei führende chinesische Videogenerierungsmodelle. Besonders bei der Bewegungsqualität erzielt das System die besten Gesamtergebnisse.

Video: Tencent

Anzeige
Anzeige

HunyuanVideo setzt auf stufenweises Training

Das Modell beherrscht nach Angaben von Tencent ein breites Spektrum an Aufgaben: Es kann Videos aus Text generieren, Bilder in Videos umwandeln und Avatar-Animationen erstellen. Auch die Generierung von Audio zu Videos gehört zum Funktionsumfang.

Das Training des Modells erfolgt nach Angaben der Entwickler in mehreren Stufen. Zunächst wird es mit Bildern in niedriger Auflösung (256 Pixel) trainiert, gefolgt von einem Mix-Scale-Training mit höheren Auflösungen.

Anschließend durchläuft das System ein progressives Video- und Bild-Training bei dem die Auflösung und Videolänge schrittweise erhöht werden. Diese Methode verbessere die Konvergenz und Qualität der generierten Videos, so das Team.

Tencent sieht breites Spektrum an Anwendungen

Die Veröffentlichung als Open Source soll nach Angaben von Tencent dazu beitragen, die Lücke zwischen geschlossenen und offenen Systemen zu schließen. Der Code ist auf GitHub verfügbar, und das Unternehmen plant eine kontinuierliche Weiterentwicklung des Systems mit neuen Funktionen.

Konkurrenz macht Tencent damit nicht nur Anbietern wie Runway oder OpenAI, das weiter an Sora arbeitet. Insbesondere von chinesischen Herstellern gibt es einige leistungsfähige Videomodelle, darunter KLING.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Tencent stellt HunyuanVideo vor, ein Open-Source-Modell für KI-Videogenerierung mit 13 Milliarden Parametern, das laut technischer Dokumentation bestehende Systeme wie Runway Gen-3 und Luma 1.6 bei der Bewegungsqualität übertrifft.
  • Das Modell durchläuft ein mehrstufiges Training: Es beginnt mit Bildern in niedriger Auflösung (256 Pixel), gefolgt von Mix-Scale-Training und progressivem Video- und Bild-Training bei steigender Auflösung und Videolänge.
  • Mit der Veröffentlichung als Open Source auf GitHub will Tencent die Lücke zwischen geschlossenen und offenen Systemen schließen. Das System kann Videos aus Text generieren, Bilder in Videos umwandeln und Avatar-Animationen erstellen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!