Mit „Seedance 1.0” präsentiert Bytedance ein neues Videomodell. Tests des Unternehmens zufolge schneidet das Modell in einigen Bereichen besser ab als etablierte Namen wie Veo oder Kling.
Bytedance, bekannt für TikTok, hat mit Seedance 1.0 ein neues KI-Modell für Videogenerierung vorgestellt. Laut dem Unternehmen soll es in mehreren Punkten besser abschneiden als bisherige Modelle – etwa bei der Umsetzung von Nutzervorgaben, der Qualität von Bewegungen und der Bildschärfe. Auf der Plattform Artificial Analysis belegt es bei den Aufgaben Text-zu-Video und Bild-zu-Video jeweils den ersten Platz, vor Systemen wie Googles Veo 3, Kling 2.0 von Kuaishou oder OpenAIs Sora.
Seedance 1.0 ist darauf ausgelegt, auf einfache Eingaben komplexe Videos zu erzeugen. Dabei soll es nicht nur einzelne Szenen umsetzen, sondern auch längere Abläufe mit mehreren Kameraeinstellungen und gleichbleibenden Figuren darstellen können. Im Vergleich zu anderen Modellen hält Seedance dabei laut Tests häufiger die Vorgaben aus dem Prompt ein – ob es nun um bestimmte Bewegungen, Kamerawechsel oder Stilrichtungen geht.
Große Daten, viele Filter
Trainiert wurde das Modell mit einer riesigen Menge an Videoclips, die Bytedance laut dem Paper aus öffentlichen und lizenzierten Quellen gesammelt hat. Die Clips wurden in einem mehrstufigen Prozess bereinigt: etwa von Logos, Untertiteln oder Gewaltinhalten. Dann wurden sie automatisch und manuell mit detaillierten Beschreibungen versehen, die sowohl Bewegungsabläufe als auch Aussehen und Stil erfassen. Damit soll das Modell besser lernen, auf komplexe Eingaben zu reagieren.
Das Training von Seedance 1.0 erfolgte in mehreren Schritten: Zuerst wurde das Modell allgemein auf Bild- und Videodaten trainiert, dann gezielt auf Bild-zu-Video erweitert. Anschließend folgten Feinabstimmungen mit sorgfältig ausgewählten Clips und ein Belohnungstraining, bei dem Menschen bessere Videos auswählten – etwa wenn Bewegungen natürlicher wirkten oder die Szene besser zur Eingabe passte. Dieses Feedback floss direkt in die Weiterentwicklung des Modells ein.
Seedance 1.0 hat(te) Geschwindigkeitsvorteil
Eine Besonderheit von Seedance 1.0 ist laut Bytedance die Geschwindigkeit bei der gebotenen Qualität. Das Modell benötigt für fünf Sekunden Video in Full-HD rund 41 Sekunden – das sei deutlich schneller als vergleichbare Systeme. Mit dem Release von Veo 3 Fast von Google dürfte sich dieser Vorsprung aber wieder relativiert haben. Audio-Generierung unterstützt Seedance 1.0 dagegen nicht.
Bytedance will Seedance 1.0 nun in eigene Anwendungen einbauen, etwa in die Plattformen Doubao und Jimeng. Das Modell soll dabei sowohl professionelle Nutzer als auch den Massenmarkt bedienen – etwa für Marketing, Content-Produktion oder einfache Videobearbeitung per Spracheingabe.