Bytedance zeigt mit Seedance 2.0 beeindruckende Fortschritte bei KI-Videos
Kurz & Knapp
- Bytedance hat Seedance 2.0 veröffentlicht, ein multimodales KI-Videogenerierungsmodell, das Bilder, Videos, Audio und Text gleichzeitig verarbeiten kann und daraus kurze Videos mit automatischen Soundeffekten erzeugt.
- Die zentrale Neuerung ist die Referenzfähigkeit: Das Modell übernimmt Kameraführung, Bewegungen und Effekte aus hochgeladenen Referenzvideos und kann Charaktere austauschen oder Videos verlängern.
- Die Veröffentlichung trieb Aktienkurse chinesischer Medien- und KI-Firmen nach oben – kurz nachdem Konkurrent Kuaishou sein ebenfalls multimodales Modell Kling 3.0 vorgestellt hatte.
Bytedance hat Seedance 2.0 veröffentlicht, zunächst für ausgewählte Nutzer. Das Vorgängermodell gehörte bereits zu den stärksten KI-Videomodellen am Markt. Die neue Version geht noch einen Schritt weiter und sorgt bereits für steigende Aktienkurse in China.
Das multimodale Videogenerierungsmodell verarbeitet bis zu vier Eingabearten gleichzeitig: Bilder, Videos, Audio und Text. Nutzer können bis zu neun Bilder, drei Videos und drei Audiodateien kombinieren, insgesamt maximal zwölf Dateien. Die erzeugten Videos sind zwischen 4 und 15 Sekunden lang und enthalten automatisch Soundeffekte oder Musik.
Wichtig dabei: Die gezeigten Demovideos stammen direkt von Bytedance und wurden wahrscheinlich aus vielen Generierungen ausgewählt. Wie zuverlässig das Modell diese Qualität im Alltag liefert, zu welchen Kosten und bei welcher Rechenzeit, ist bisher nicht bekannt. Die Ergebnisse zeigen also ein Optimalszenario. Dennoch ist die gezeigte Qualität beeindruckend.
Prompt: Die Kamera folgt einem Mann in schwarzer Kleidung, der schnell flieht. Hinter ihm verfolgt ihn eine Menschenmenge. Die Kamera wechselt zu einer seitlichen Verfolgungsaufnahme. Die Figur stößt in Panik einen Obststand am Straßenrand um, rappelt sich auf und rennt weiter. Im Hintergrund sind die aufgeregten Rufe der Menge zu hören.
Prompt: Ein Mädchen hängt elegant Wäsche auf. Nachdem sie fertig ist, nimmt sie das nächste Kleidungsstück aus dem Eimer und schüttelt es kräftig aus.
Die wichtigste Neuerung ist laut Bytedance die Referenzfähigkeit: Das Modell kann Kameraführung, Bewegungen und Spezialeffekte aus hochgeladenen Referenzvideos übernehmen, Charaktere austauschen und bestehende Videos nahtlos verlängern.
Auch Videobearbeitung wie das Ersetzen oder Hinzufügen von Figuren ist möglich. Dafür reichen einfache Textbefehle wie "Nimm @Bild1 als erstes Bild der Szene. Erste-Person-Perspektive. Übernimm die Kameraführung aus @Video1. Die Szene oben orientiert sich an @Bild2, die Szene links an @Bild3, die Szene rechts an @Bild4."
Der Nutzer macht eine Kamerabewegung vor …
… die das KI-Modell in ein generiertes Video überträgt, nebst weiterer Elemente.
Aus Compliance-Gründen werden realistische menschliche Gesichter in hochgeladenen Materialien derzeit blockiert. Seedance 2.0 ist als Beta derzeit nur auf der offiziellen Jimeng-Website unter jimeng.jianying.com verfügbar.
Prompt: Die Figur im Bild hat einen schuldbewussten Gesichtsausdruck, die Augen blicken nach links und rechts, dann lehnt sie sich aus dem Bilderrahmen heraus. Schnell streckt sie die Hand aus dem Rahmen, greift nach einer Cola und nimmt einen Schluck, dann zeigt sie einen zufriedenen Gesichtsausdruck. In diesem Moment sind Schritte zu hören. Die Figur im Bild stellt die Cola hastig an ihren ursprünglichen Platz zurück. Da kommt ein Western-Cowboy, nimmt die Cola aus dem Becher und geht davon. Zum Schluss fährt die Kamera nach vorne, der Hintergrund wird langsam komplett schwarz, nur ein Spotlight von oben beleuchtet eine Dose Cola. Am unteren Bildrand erscheint ein kunstvoll gestalteter Untertitel mit Erzählerstimme: „Yikou Cola – man muss sie probiert haben!"
Das Modell kommt wenige Tage nachdem Konkurrent Kuaishou sein Modell Kling 3.0 vorgestellt hat, das ebenfalls multimodale Ein- und Ausgaben unterstützt. Auch in China spielt die Börse rund um KI verrückt: Die Veröffentlichungen der starken Videomodelle trieben Aktienkurse chinesischer Medien- und KI-Firmen um bis zu 20 Prozent nach oben, berichtet die South China Morning Post.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren