Inhalt
summary Zusammenfassung

Ein neues KI-System namens StreamDiT kann Videos live aus Textbeschreibungen erstellen. Die Technologie könnte für Gaming und interaktive Medien relevant werden.

Anzeige

Wissenschaftler:innen von Meta und der University of California, Berkeley, haben in einem Paper ein System vorgestellt, das Videos in Echtzeit mit 16 Bildern pro Sekunde auf einer einzelnen High-End-GPU generiert. Das 4-Milliarden-Parameter-Modell produziert Videos mit 512p-Auflösung.

Der Hauptunterschied zu bisherigen Methoden liegt im Ansatz: Anstatt komplette Video-Clips zu erstellen und dann auszugeben, produziert StreamDiT Videos wie einen Live-Stream.

Video: Kodaira et al.

Anzeige
Anzeige

Die Wissenschaftler:innen demonstrierten verschiedene Einsatzmöglichkeiten: Das System kann minutenlange Videos in Echtzeit erstellen, auf interaktive Eingaben reagieren und sogar bestehende Videos in Echtzeit bearbeiten. In einem Beispiel verwandelten sie ein Schwein in einer Videosequenz in eine Katze, während der Hintergrund unverändert blieb.

Vier Frames: Eingabevideo eines laufenden Schweins (oben) und per Prompt in eine Katze verwandeltes Ausgabeframes (unten) in einer Graffiti-Allee.
Ein laufendes Schwein im Eingabevideo wird per Prompt in eine Katze im Ausgabestream umgewandelt, was die Echtzeitfähigkeit promptbasierter Bild-zu-Video-Transformation verdeutlicht. | Bild: Kodaira et al.

Das System nutzt eine angepasste Architektur, die für Geschwindigkeit optimiert wurde. StreamDiT verwendet einen beweglichen Puffer, der mehrere Video-Frames gleichzeitig verarbeitet. Während das System an einem Frame arbeitet, bereitet es bereits die nächsten vor und gibt kontinuierlich fertige Bilder aus.

Dabei haben die Frames unterschiedliche Rauschpegel: Neue Frames sind stark verrauscht, während Frames kurz vor der Ausgabe fast vollständig bereinigt sind. Laut Paper benötigt das System etwa eine halbe Sekunde, um zwei Video-Frames zu erstellen, was nach der Verarbeitung acht fertige Bilder ergibt.

Schematische Pufferteilung in K Referenzframes und N Chunks; daneben Auto-Denoise-Schritte mit fallenden Korrelationswerten
StreamDiT unterteilt den Videopuffer in feste Referenzframes und kurze Chunks. Rechts sieht man an einer Autosequenz, wie beim Denoising die Bildähnlichkeit (von Grün bis Rot) stufenweise abnimmt. | Bild: Kodaira et al.

Vielseitiges Training verbessert Ergebnisse

Anstatt nur eine Art der Video-Erstellung zu lernen, wurde das Modell mit unterschiedlichen Ansätzen trainiert. Das soll verhindern, dass sich das System zu sehr auf eine bestimmte Methode festlegt und die Qualität der Videos verbessern. Das Training erfolgte in drei Stufen mit 3.000 hochwertigen Videos und einem größeren Datensatz mit 2,6 Millionen Videos.

Die Forschenden nutzten 128 Nvidia-H100-GPUs für das Training. Besonders wichtig war das gemischte Training: Das Team zeigt, dass eine Mischung verschiedener Chunk-Größen (von 1 bis 16 Bildern) die beste Qualität erzielt

Empfehlung

Um die Echtzeit-Geschwindigkeit zu erreichen, entwickelten die Wissenschaftler:innen eine Beschleunigungstechnik. Diese reduziert die normalerweise nötigen Berechnungsschritte von 128 auf nur 8 Schritte, ohne die Bildqualität stark zu beeinträchtigen. Die Architektur wurde für Effizienz optimiert: Statt dass jedes Bildelement mit allen anderen "sprechen" muss, wurden lokale Bereiche geschaffen, die sich nur mit ihren Nachbarn austauschen.

Tests zeigen bessere Ergebnisse bei bewegten Inhalten

Die Forschenden verglichen StreamDiT mit zwei anderen Methoden namens ReuseDiffuse und FIFO-Diffusion. Laut der Studie schnitt StreamDiT besonders bei Videos mit viel Bewegung deutlich besser ab. Während andere Methoden eher statische Inhalte produzierten, konnte StreamDiT dynamischere Videos erstellen.

Tests mit menschlichen Bewerter:innen bestätigten die Überlegenheit von StreamDiT in allen getesteten Bereichen: Gesamtqualität, Bildkonsistenz, Vollständigkeit der Bewegung und natürliche Bewegungen. Für die Tests generierten die Forschenden Acht-Sekunden-Videos mit 512p-Auflösung.

Gestapelte Balkendiagramme: Prozentuale Winraten von Ours vs. ReuseDiffuse (links) und Ours vs. FIFO (rechts) für vier Bewertungsachsen.
Menschliche Bewerter:innen untersuchten die Flüssigkeit der Bewegung (Motion Naturalness), Vollständigkeit der Animation (Motion Completeness), Bildkonsistenz über Frames (Frame Consistency) und das Gesamterlebnis (Overall) | Bild: Kodaira et al.

Erfolgreiche Tests mit größerem Modell

Die Forschenden testeten ihre Methode auch mit einem deutlich größeren Modell mit 30 Milliarden Parametern. Dieses produzierte erheblich bessere Qualität, ist aber zu langsam für Echtzeit-Anwendungen. Der Test zeigt jedoch, dass der Ansatz auch bei größeren Systemen funktioniert.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Zu den aktuellen Grenzen gehören die begrenzte "Erinnerung" des Systems an frühere Teile des Videos und mögliche sichtbare Übergänge zwischen verschiedenen Video-Abschnitten. Die Forscher sehen jedoch Lösungsansätze für diese Probleme vor.

Parallel zu StreamDiT treiben auch andere Unternehmen die Echtzeit-Interaktion mit KI-Videos voran: Odyssey hat kürzlich ein autoregressives Weltmodell entwickelt, das Videos frameweise an Nutzereingaben anpasst und so begehbare Erlebnisse schafft.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende von Meta und der University of California, Berkeley, haben mit StreamDiT ein KI-System entwickelt, das Videos aus Textbeschreibungen in Echtzeit erzeugt und damit neue Möglichkeiten für Gaming und interaktive Medien eröffnet.
  • StreamDiT generiert Videos als Live-Stream mit 16 Bildern pro Sekunde und 512p-Auflösung auf einer einzelnen High-End-GPU. Durch spezielle Trainingsmethoden und eine Beschleunigungstechnik konnten die Entwickler die Rechenzeit deutlich reduzieren und die Bildqualität erhalten.
  • Im Vergleich zu anderen Methoden überzeugt StreamDiT insbesondere bei bewegten Inhalten und schnitt in Tests mit menschlichen Bewerter:innen in den Bereichen Gesamtqualität, Bildkonsistenz und natürliche Bewegung besser ab. Ein größeres Modell zeigte noch bessere Ergebnisse, ist aber derzeit zu langsam für Echtzeit.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!