Adobes Sketch2Sound könnte die Arbeit in Tonstudios verändern

22. Dezember 2024

García et al., Adobe Research

Adobe Research und die Northwestern University haben eine KI-Technologie entwickelt, die Sounddesigner bei der Erstellung von Sounds durch Summen oder Nachahmen von Geräuschen unterstützt.

Das neue KI-System "Sketch2Sound" ermöglicht es, Sounds durch stimmliche Nachahmung und Textbeschreibungen zu erzeugen. Das System analysiert dafür drei wesentliche Klangmerkmale: Lautstärke, Klangfarbe (Helligkeit) und Tonhöhe. Diese Eigenschaften werden aus der stimmlichen Eingabe extrahiert und mit Textanweisungen kombiniert, um den gewünschten Sound zu generieren.

Den Forschern zufolge versteht das System die Absicht hinter einer Stimmimitation. Wenn jemand zum Beispiel bei der Texteingabe "Waldatmosphäre" kurze Geräusche nachahmt, erkennt das System automatisch, dass an dieser Stelle Vogelgeräusche platziert werden sollen - ohne dass dies explizit gesagt werden muss.

Ähnlich funktioniert es mit Schlagzeugrhythmen: Gibt man als Text "Bassdrum, Snaredrum" ein und imitiert einen Rhythmus mit tiefen und hohen Tönen, platziert das System automatisch die Bassdrum an den tiefen und die Snaredrum an den hohen Stellen.

Video: García et al., Adobe Research

Neues Werkzeug für Sounddesigner

Die Forscher haben auch eine spezielle Filtertechnik entwickelt, die es ermöglicht, die Genauigkeit der Kontrolle anzupassen. Sounddesigner können damit wählen, ob sie eine sehr präzise oder eher grobe Kontrolle über den generierten Klang haben möchten.

Die Forscher sehen in Sketch2Sound einen wichtigen Schritt auf dem Weg zu intuitiveren Werkzeugen für das Sounddesign. Das System könnte besonders für Foley-Künstler interessant sein, die Geräusche für Film und Fernsehen erstellen und dabei häufig Geräusche mit physischen Objekten imitieren.

Die Kombination von Stimmnachahmung und Textbeschreibung ermöglicht eine natürlichere und ausdrucksstärkere Arbeitsweise als rein textbasierte Systeme.

Ein Nachteil von Sketch2Sound ist, dass sich der Raumklang der Eingabe-Imitationen in das erzeugte Audio einschleichen kann. Die Forscher arbeiten jedoch an Lösungen für dieses Problem.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Adobes Sketch2Sound könnte die Arbeit in Tonstudios verändern

Neues Werkzeug für Sounddesigner

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.