Generative KI kann fotorealistische Bilder erzeugen, erste Modelle können Videos generieren. Bytedance und Alibaba zeigen nun jeweils Modelle, die fotorealistische Videoclips von animierten Menschen erzeugen.
Beide Unternehmen setzen auf leicht unterschiedliche Architekturen, nutzen aber im Kern Diffusionsmodelle, die Bilder an ein Modell anpassen, das die Posen etwa einer Tanzsequenz über einen bestimmten Zeitraum vorgibt. MagicAnimate von Bytedance und dem Show Labder National University of Singapore sowie Animate Anyone von Alibaba und dem Institute for Intelligent Computing generieren dann aus einem Referenzbild und einer Tanzsequenz kurze Videoclips von tanzenden Menschen oder Zeichentrickfiguren.
Durch den Einsatz von Methoden wie ControlNet und anderen Methoden zur Sicherstellung der zeitlichen Stabilität erreichen die Videos eine wesentlich höhere Konsistenz als andere Text-zu-Video- oder Bild-zu-Video-Modelle und übertreffen die aktuellen Bestwerte des TikTok-Benchmarks um fast 40 Prozent.
Beide Methoden benötigen nur ein Bild und eine Bewegungssequenz, um Videos zu erzeugen - das kann eine reale Person, die Mona Lisa oder ein KI-generiertes Bild sein. Bytedance MagicAnimate kann sogar mehrere Personen gleichzeitig animieren.
Mehr Möglichkeiten für TikTok - und KI-Influencer
Mit diesen Methoden könnten KI-Influencer, die heute vor allem in Form von statischen Bildern und KI-generierten Texten existieren, bald auch aktuelle TikTok-Trends aufgreifen oder andere Bewegtbilder erstellen. Bytedance könnte die Modelle in Zukunft auch direkt auf TikTok für die eigenen Kunden anbieten.
Der Code für MagicAnimate ist auf der Projektseiten auf Github verfügbar. Für MagicAnimate gibt es auch eine Demo. Der Code für Animate Anyone soll ebenfalls bald auf Github verfügbar sein - das Team will noch einige Verbesserungen vor der Veröffentlichugn vornehmen.