Deepmind zeigt V2A: KI generiert passenden Sound für stumme Videos

Deepminds Video-to-Audio (V2A)-Technologie kombiniert Videopixel mit Textprompts, um Tonspuren mit Dialogen, Soundeffekten und Musik für stumme Videos zu generieren.

Google Deepmind hat ein generatives KI-Modell vorgestellt, das Audio für Videos erzeugt (Video-to-Audio, V2A). Die V2A-Technologie kombiniert Videopixel mit Anweisungen in natürlicher Sprache, um detaillierte Tonspuren für stumme Videos zu erzeugen.

V2A kann in Kombination mit Videogenerierungsmodellen wie Deepminds Veo oder denen von Wettbewerbern wie Sora, KLING oder Gen 3 eingesetzt werden, um Aufnahmen mit dramatischer Musik, realistischen Soundeffekten oder Dialogen zu versehen, die zu den Charakteren und der Stimmung des Videos passen. Natürlich kann die Technologie auch zur Vertonung von traditionellem Filmmaterial wie Archivmaterial und Stummfilmen eingesetzt werden. Seine Stärke liegt in der Möglichkeit, eine unbegrenzte Anzahl von Soundtracks für jeden Videoeingang zu generieren.

Zusätzliche Kontrolle kann durch optionale "positive Prompts" ausgeübt werden - diese lenken die Ausgabe in Richtung gewünschter Klänge, während "negative Prompts" unerwünschte Klänge verhindern. Dies ist auch bei der Erzeugung von Bildern üblich.

Prompt for audio: Cars skidding, car engine throttling, angelic electronic music

V2A-Modell vorerst nicht verfügbar

Das Modell von Deepmind ist diffusionsbasiert, diese Methode liefert die realistischsten und überzeugendsten Ergebnisse für die Synchronisation von Video und Audio, so das Team.

Das V2A-System kodiert zunächst die Videoeingabe in eine komprimierte Darstellung. Dann verfeinert das Diffusionsmodell schrittweise das Audio aus zufälligem Rauschen, das von der visuellen Eingabe und den Textprompts geleitet wird. Schließlich wird die Audioausgabe dekodiert, in eine Audio-Wellenform umgewandelt und mit den Videodaten kombiniert.

Um die Audioqualität zu verbessern, fügte Deepmind dem Trainingsprozess zusätzliche Informationen hinzu, darunter KI-generierte Beschreibungen von Geräuschen und Transkriptionen von gesprochenen Dialogen. Auf diese Weise lernt V2A, bestimmte Audioereignisse verschiedenen visuellen Szenen zuzuordnen und auf die in den Beschreibungen oder Transkripten enthaltenen Informationen zu reagieren.

Empfehlung

KI-Forschung

Metas "Self-Rewarding Language Models" sollen menschliches Feedback überflüssig machen

Dennoch gibt es einige Einschränkungen: So hängt die Qualität der Audioausgabe von der Qualität der Videoeingabe ab. Artefakte oder Verzerrungen im Video, die außerhalb der Trainingsverteilung des Modells liegen, können zu einer deutlichen Verschlechterung der Audioqualität führen. Auch die Lippensynchronisation bei Videos mit Sprache ist noch fehlerhaft.

V2A ist noch nicht verfügbar - Deepmind sammelt Feedback von führenden Kreativen und Filmemachern, um einen "positiven Einfluss der V2A-Technologie auf die Kreativindustrie" sicherzustellen. Bevor ein breiterer Zugang in Betracht gezogen wird, wird V2A strengen Sicherheitsbewertungen und Tests unterzogen.

Deepmind zeigt V2A: KI generiert passenden Sound für stumme Videos

V2A-Modell vorerst nicht verfügbar

Metas "Self-Rewarding Language Models" sollen menschliches Feedback überflüssig machen

TransNAR: Deepminds Hybrid-KI schlägt reine Sprachmodelle bei Schlussfolgerungen

Deepmind-Studie deckt tiefe Verbindung zwischen Kausalität und allgemeiner KI auf

Google Deepminds neuer KI-Agent zockt Spiele nur per Sprachfehl

KI-Studie erklärt Schwächen bei Schlussfolgerungen - und zeigt Lösungsansatz

Anthropic bringt mit Claude 3.5 das bisher wohl leistungsstärkste KI-Modell auf den Markt

MCT Self-Refine: Neue Methode hebt kleines Sprachmodell auf GPT-4-Niveau

Deepmind zeigt V2A: KI generiert passenden Sound für stumme Videos

V2A-Modell vorerst nicht verfügbar

Artikel teilen

Bankverbindung