Adobes Sketch2Sound könnte die Arbeit in Tonstudios verändern
Kurz & Knapp
- Adobe Research und die Northwestern University haben "Sketch2Sound" entwickelt, ein KI-System, das Sounddesigner beim Erstellen von Sounds durch stimmliche Nachahmung und Textbeschreibungen unterstützt.
- Das System analysiert Lautstärke, Klangfarbe und Tonhöhe der Stimmimitation und kombiniert diese mit Textanweisungen, um den gewünschten Sound zu generieren.
- Dabei versteht es die Absicht hinter der Imitation, etwa dass an einer bestimmten Stelle Vogelgeräusche oder ein bestimmter Schlagzeugrhythmus platziert werden sollen. Sketch2Sound könnte besonders für Foley-Künstler interessant sein, die Geräusche für Film und Fernsehen erstellen.
Adobe Research und die Northwestern University haben eine KI-Technologie entwickelt, die Sounddesigner bei der Erstellung von Sounds durch Summen oder Nachahmen von Geräuschen unterstützt.
Das neue KI-System "Sketch2Sound" ermöglicht es, Sounds durch stimmliche Nachahmung und Textbeschreibungen zu erzeugen. Das System analysiert dafür drei wesentliche Klangmerkmale: Lautstärke, Klangfarbe (Helligkeit) und Tonhöhe. Diese Eigenschaften werden aus der stimmlichen Eingabe extrahiert und mit Textanweisungen kombiniert, um den gewünschten Sound zu generieren.
Den Forschern zufolge versteht das System die Absicht hinter einer Stimmimitation. Wenn jemand zum Beispiel bei der Texteingabe "Waldatmosphäre" kurze Geräusche nachahmt, erkennt das System automatisch, dass an dieser Stelle Vogelgeräusche platziert werden sollen - ohne dass dies explizit gesagt werden muss.
Ähnlich funktioniert es mit Schlagzeugrhythmen: Gibt man als Text "Bassdrum, Snaredrum" ein und imitiert einen Rhythmus mit tiefen und hohen Tönen, platziert das System automatisch die Bassdrum an den tiefen und die Snaredrum an den hohen Stellen.
Video: García et al., Adobe Research
Neues Werkzeug für Sounddesigner
Die Forscher haben auch eine spezielle Filtertechnik entwickelt, die es ermöglicht, die Genauigkeit der Kontrolle anzupassen. Sounddesigner können damit wählen, ob sie eine sehr präzise oder eher grobe Kontrolle über den generierten Klang haben möchten.
Die Forscher sehen in Sketch2Sound einen wichtigen Schritt auf dem Weg zu intuitiveren Werkzeugen für das Sounddesign. Das System könnte besonders für Foley-Künstler interessant sein, die Geräusche für Film und Fernsehen erstellen und dabei häufig Geräusche mit physischen Objekten imitieren.
Die Kombination von Stimmnachahmung und Textbeschreibung ermöglicht eine natürlichere und ausdrucksstärkere Arbeitsweise als rein textbasierte Systeme.
Ein Nachteil von Sketch2Sound ist, dass sich der Raumklang der Eingabe-Imitationen in das erzeugte Audio einschleichen kann. Die Forscher arbeiten jedoch an Lösungen für dieses Problem.
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.