Inhalt
summary Zusammenfassung

Forschende der University of Michigan und Adobe Research haben ein KI-System entwickelt, das Geräusche für Filme, sogenannte Foley-Sounds, für Videos generieren kann.

Anzeige

MultiFoley ermöglicht es Nutzer:innen, die generierten Sounds über Textprompts, Referenzaudio oder Videobeispiele zu steuern. In Beispielen lassen die Forschenden das System das Miauen einer Katze in ein Löwengebrüll verwandeln oder Schreibmaschinengeräusche wie ein Klavier klingen lassen. Die generierten Sounds synchronisieren sich dennoch auf beeindruckende Weise mit dem Bildinhalt.

Video: Adobe

Eine Besonderheit des Systems ist laut den Forschenden die Fähigkeit, hochwertige Audioausgaben in voller Bandbreite (48kHz) zu erzeugen. Dies wurde durch ein spezielles Trainingsverfahren erreicht, bei dem sowohl Internet-Videos als auch professionelle Soundeffekt-Bibliotheken verwendet wurden.

Anzeige
Anzeige

Laut dem Paper ist es außerdem das erste System, das mehrere Steuerungsmöglichkeiten - also Text, Audio und Video als Referenz - in einem einzigen Modell vereint.

Die exakte zeitliche Abstimmung zwischen Video und generiertem Audio erreicht MultiFoley durch einen speziellen Synchronisationsmechanismus: Das System analysiert zunächst die visuellen Merkmale des Videos mit einer Bildrate von 8 Frames pro Sekunde. Diese werden dann auf die höhere Audioabtastrate von 40 Hz hochgerechnet und mit den Audiolatenzmerkmalen kombiniert.

Zwei Bildpaare mit Spektrogrammen: Links Vogel mit Gesangsmustern, rechts Schreibmaschine mit mechanischen Klangmustern, jeweils drei Variationen.
Die Beispiele demonstrieren die KI-gesteuerte Foley-Soundgenerierung für Videomaterial. Durch unterschiedliche Textprompts erzeugt das System passende Audioeffekte - von Vogelgezwitscher bis zu Schreibmaschinengeräuschen - die präzise mit den Videoinhalten synchronisiert sind. | Bild: Chen et al.

Laut dem Paper ermöglicht diese Technik eine durchschnittliche Synchronisationsgenauigkeit von 0,8 Sekunden - deutlich besser als bisherige Systeme, die meist über einer Sekunde Versatz lägen.

Bessere Ergebnisse als bisherige Systeme

In quantitativen Tests übertraf MultiFoley die Leistung bestehender Systeme in mehreren wichtigen Metriken. Besonders bei der Audio-Video-Synchronisation und der semantischen Übereinstimmung zwischen Text und generiertem Audio schnitt das System deutlich besser ab als die Vergleichsmodelle.

Radar-Diagramm: Vergleich von 8 Audio-Generierungsmethoden über 6 Metriken (FAD@AUD, FAD@VGG, AV-Sync, CLAP, ImageBind, KLD), verschiedenfarbige Polygonlinien.
Der Radar-Chart vergleicht acht verschiedene Audio-Generierungsmethoden anhand von sechs Leistungsmetriken. MultiFoley (blau) zeigt durchgehend starke Leistung. | Bild: Chen et al.

Eine Nutzer:innenstudie bestätigte diese Ergebnisse: 85,8 Prozent der Teilnehmer bewerteten die semantische Übereinstimmung der von MultiFoley generierten Sounds als besser im Vergleich zum nächstbesten System. Bei der Synchronisation waren es sogar 94,5 Prozent.

Empfehlung

Die Forschenden weisen darauf hin, dass das System derzeit noch Einschränkungen hat. So wurde es nur mit einem relativ kleinen Datensatz trainiert, was die Vielfalt der möglichen Soundeffekte begrenzt. Auch bei der gleichzeitigen Verarbeitung mehrerer Soundereignisse stößt das System noch an seine Grenzen.

Das Team arbeitet bereits an Verbesserungen und sieht großes Potenzial für den Einsatz in der Filmproduktion, Spieleentwicklung und anderen kreativen Bereichen, wo bisher aufwendige manuelle Foley-Arbeit nötig war.

Veröffentlichung steht noch aus

Der Quellcode und die Modelle sollen in Kürze öffentlich zugänglich gemacht werden. Ob und wann diese Forschung in einem kommerziellen Produkt landet, bleibt abzuwarten.

Angesichts bereits zahlreicher generativer KI-Fähigkeiten in Adobes Schnittprogramm Premiere Pro würde es sich jedoch gut in die Funktionspalette einfügen. Neben Einzelanwender:innen dürfte die Foley-Sound-Generation außerdem bei Produktionsfirmen auf offene Ohren stoßen, die zunehmend mit KI-Unternehmen kooperieren.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende der University of Michigan und Adobe Research haben ein KI-System namens MultiFoley entwickelt, das Filmgeräusche generieren kann, die über Textprompts, Referenzaudio oder Videobeispiele gesteuert werden.
  • Das System zeichnet sich durch die Fähigkeit aus, hochwertige Audioausgaben in voller Bandbreite zu erzeugen und eine präzise Synchronisation zwischen Video und generiertem Audio zu erreichen, mit einer durchschnittlichen Genauigkeit von 0,8 Sekunden.
  • In Tests und Nutzer:innenstudien übertraf MultiFoley die Leistung bestehender Systeme in Metriken wie Audio-Video-Synchronisation und semantischer Übereinstimmung. Das Team sieht großes Potenzial für den Einsatz in der Filmproduktion, Spieleentwicklung und anderen kreativen Bereichen.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!