Inhalt
summary Zusammenfassung

Die neuen ByteDance-Modelle der Goku-Reihe können mit den besten Videomodellen mithalten. Eine Goku-Version ist auf menschliche Avatare spezialisiert, die Produkte in die Kamera halten.

Anzeige

Für die Entwicklung von Goku sammelte ByteDance Bild- und Videodaten aus verschiedenen Quellen, darunter öffentlich verfügbare akademische Datensätze, Internetressourcen und proprietäre Datensätze von Partnerorganisationen, heißt es im begleitenden Paper. Nach einer aufwendigen Filterung umfasst der finale Trainingsdatensatz etwa 160 Millionen Bild-Text-Paare und 36 Millionen Video-Text-Paare.

Video: ByteDance

Umfangreich gefilterter Trainingsdatensatz

Anders als die meisten anderen Videomodelle kann Goku sowohl Bilder als auch Videos aus Textbeschreibungen erzeugen. Das System setzt dabei auf eine neuartige Transformer-Architektur mit 2 bis 8 Milliarden Parametern, die beide Medienformate gemeinsam verarbeitet.

Anzeige
Anzeige

Ein gemeinsamer Encoder (VAE) komprimiert Bilder und Videos in einen einheitlichen latenten Raum, ähnlich einer Datenkompression. Diese komprimierten Daten werden dann von einem angepassten Transformer verarbeitet. Durch diese Architektur und einen angepassten generativen Prozess (Rectified Flow), der die sonst verwendeten Diffusionsmethoden ersetzt, ist Goku in der Lage, qualitativ hochwertige und konsistente Ergebnisse sowohl für Bilder als auch für Videos zu erzeugen.

Das Training erfolgt in mehreren Stufen: Zunächst lernt das System, Texte mit Bildern zu verbinden. Anschließend wird es gemeinsam mit Bildern und Videos trainiert. In einer letzten Phase wird es speziell für die jeweilige Ausgabeform - Bild oder Video - optimiert.

Um Goku in großem Maßstab zu trainieren, hat ByteDance eine spezielle Infrastruktur entwickelt. Diese nutzt Parallelisierungsstrategien, um die verfügbaren Ressourcen wie Speicher und Rechenleistung optimal zu nutzen. Außerdem kommen Techniken zum Einsatz, die Zwischenergebnisse während des Trainings effizient sichern und im Fehlerfall eine schnelle Wiederaufnahme des Trainings ermöglichen. So konnte ByteDance Goku stabil und skalierbar auf großen Rechnerclustern trainieren.

[ALT-Text]Sieben Reihen von Bildsequenzen zeigen einen Astronauten, der über die Mondoberfläche läuft, mit Erde oder Mond im Hintergrund.
Im Vergleich zu anderen aktuellen Videomodellen scheint Goku dem Prompt besser zu folgen und höherwertige Ergebnisse zu liefern. | Bild: ByteDance
In Benchmarks für die Text-zu-Bild-Generierung zeigt Goku-T2I eine starke Leistung bei der visuellen Qualität und der Übereinstimmung von Text und Bild. Bei der Text-zu-Video-Generierung erzielt Goku-T2V Spitzenwerte, etwa einen Wert von 84,85 auf VBench. Damit übertrifft es mehrere führende kommerzielle Text-zu-Video-Modelle anderer Unternehmen wie Kling oder Pika. Auch qualitativ überzeugen die von Goku generierten Medien und übertreffen das ältere ByteDance-Modell Jimeng AI sichtlich.

ByteDance hat auf der Projektseite zahlreiche Beispielclips mit realistischen bis fantasievollen Motiven veröffentlicht. Wo die Grenzen von Goku liegen, verrät ByteDance nicht. Die Beispiele sind jedoch auf eine Länge von vier Sekunden bei 24 FPS in HD-Auflösung (720p) begrenzt.

Empfehlung

Goku+ soll Werbevideos für 1 Prozent der Kosten produzieren

ByteDance sieht für die Goku-Modelle vielfältige potenzielle Anwendungsmöglichkeiten, insbesondere in der Medienproduktion, Werbung, Videospielen und für Weltmodell-Simulatoren. Eine Weiterentwicklung namens Goku+ optimiert das System speziell für Werbeszenarien mit Menschen und Produkten.

Portfolio-Collage mit Werbefotos: Essensszenen, Modefotografie und Beauty-Aufnahmen in professioneller Bildsprache.
Goku+ ist auf die Erstellung möglichst authentischer Werbeclips optimiert. | Bild: ByteDance

Goku+ kann aus Texteingaben hyperrealistische menschliche Videos mit stabilen Handbewegungen und ausdrucksstarker Mimik und Gestik erzeugen. Goku+ beherrscht auch die Umwandlung von Produktbildern in Videoclips und die menschliche Interaktion mit diesen.

ByteDance verspricht so maßgeschneiderte HD-Videos für die Werbung zu 100-mal niedrigeren Kosten als bisher. Unternehmen bezahlen bisweilen viel Geld für sogenannte "UGC-Creator" - meist namenlose Gesichter, die einen authentischen Umgang mit Produkten in einem Video festhalten sollen.

ByteDance hat in jüngerer Vergangenheit an einigen Video-KI-Projekten geforscht, Goku scheint jedoch eines der größeren Vorhaben gewesen zu sein. Noch handelt es sich dabei um eine rein wissenschaftliche Vorschau.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Dass ByteDance seinen Standortvorteil mit TikTok als milliardenschwere Werbeplattform ausnutzt und Unternehmen entsprechende Tools zur Erstellung von Videowerbung an die Hand gibt, ist aber eher früher als später zu erwarten. Gleichzeitig sieht sich das chinesische Unternehmen Sanktionen der US-Regierung ausgesetzt.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • ByteDance hat mit der Goku-Reihe neue KI-Modelle entwickelt, die in Benchmarks für Text-zu-Bild- und Text-zu-Video-Generierung Spitzenwerte erzielen und bestehende Angebote übertreffen. Dies gelingt durch einen umfangreich gefilterten Trainingsdatensatz, eine optimierte Modellarchitektur und eine skalierbare Trainingsinfrastruktur.
  • Goku basiert auf einer Transformer-Architektur mit bis zu 8 Milliarden Parametern und einem "Rectified Flow" genannten Ansatz, der Bilder und Videos in einem gemeinsamen latenten Raum verarbeitet. So erzeugt das Modell hochwertige und konsistente Ergebnisse für beide Medientypen.
  • Eine Weiterentwicklung namens Goku+ ist speziell für die Erstellung von Werbevideos mit Menschen und Produkten optimiert. ByteDance verspricht damit maßgeschneiderte HD-Videos zu 100-mal niedrigeren Kosten als bisher. Das Unternehmen sieht vielfältige Anwendungsmöglichkeiten in Medienproduktion, Werbung, Videospielen und Simulationen.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!