Inhalt
summary Zusammenfassung

Deepminds Video-to-Audio (V2A)-Technologie kombiniert Videopixel mit Textprompts, um Tonspuren mit Dialogen, Soundeffekten und Musik für stumme Videos zu generieren.

Anzeige

Google Deepmind hat ein generatives KI-Modell vorgestellt, das Audio für Videos erzeugt (Video-to-Audio, V2A). Die V2A-Technologie kombiniert Videopixel mit Anweisungen in natürlicher Sprache, um detaillierte Tonspuren für stumme Videos zu erzeugen.

V2A kann in Kombination mit Videogenerierungsmodellen wie Deepminds Veo oder denen von Wettbewerbern wie Sora, KLING oder Gen 3 eingesetzt werden, um Aufnahmen mit dramatischer Musik, realistischen Soundeffekten oder Dialogen zu versehen, die zu den Charakteren und der Stimmung des Videos passen. Natürlich kann die Technologie auch zur Vertonung von traditionellem Filmmaterial wie Archivmaterial und Stummfilmen eingesetzt werden. Seine Stärke liegt in der Möglichkeit, eine unbegrenzte Anzahl von Soundtracks für jeden Videoeingang zu generieren.

 

Anzeige
Anzeige

Zusätzliche Kontrolle kann durch optionale "positive Prompts" ausgeübt werden - diese lenken die Ausgabe in Richtung gewünschter Klänge, während "negative Prompts" unerwünschte Klänge verhindern. Dies ist auch bei der Erzeugung von Bildern üblich.

Prompt for audio: Cars skidding, car engine throttling, angelic electronic music

V2A-Modell vorerst nicht verfügbar

Das Modell von Deepmind ist diffusionsbasiert, diese Methode liefert die realistischsten und überzeugendsten Ergebnisse für die Synchronisation von Video und Audio, so das Team.

Das V2A-System kodiert zunächst die Videoeingabe in eine komprimierte Darstellung. Dann verfeinert das Diffusionsmodell schrittweise das Audio aus zufälligem Rauschen, das von der visuellen Eingabe und den Textprompts geleitet wird. Schließlich wird die Audioausgabe dekodiert, in eine Audio-Wellenform umgewandelt und mit den Videodaten kombiniert.

Um die Audioqualität zu verbessern, fügte Deepmind dem Trainingsprozess zusätzliche Informationen hinzu, darunter KI-generierte Beschreibungen von Geräuschen und Transkriptionen von gesprochenen Dialogen. Auf diese Weise lernt V2A, bestimmte Audioereignisse verschiedenen visuellen Szenen zuzuordnen und auf die in den Beschreibungen oder Transkripten enthaltenen Informationen zu reagieren.

Empfehlung

Dennoch gibt es einige Einschränkungen: So hängt die Qualität der Audioausgabe von der Qualität der Videoeingabe ab. Artefakte oder Verzerrungen im Video, die außerhalb der Trainingsverteilung des Modells liegen, können zu einer deutlichen Verschlechterung der Audioqualität führen. Auch die Lippensynchronisation bei Videos mit Sprache ist noch fehlerhaft.

V2A ist noch nicht verfügbar - Deepmind sammelt Feedback von führenden Kreativen und Filmemachern, um einen "positiven Einfluss der V2A-Technologie auf die Kreativindustrie" sicherzustellen. Bevor ein breiterer Zugang in Betracht gezogen wird, wird V2A strengen Sicherheitsbewertungen und Tests unterzogen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google Deepmind hat ein KI-Modell für Video-to-Audio (V2A) entwickelt, das Tonspuren mit Dialogen, Soundeffekten und Musik für stumme Videos erzeugen kann, indem es Videopixel mit Textanweisungen kombiniert.
  • V2A basiert auf einem Diffusionsmodell und kann in Verbindung mit Videogenerierungsmodellen eingesetzt werden, um eine unbegrenzte Anzahl von Soundtracks für Videos zu generieren. Durch Text-Prompts lässt sich die Audioausgabe zusätzlich steuern.
  • Das System kodiert zunächst das Video, dann verfeinert das Diffusionsmodell schrittweise das Audio aus Rauschen anhand der visuellen Daten und Textprompts. Allerdings hängt die Audioqualität von der Videoqualität ab und die Lippensynchronisation ist noch fehlerhaft. V2A wird aktuell getestet und ist noch nicht öffentlich verfügbar.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!