Inhalt
summary Zusammenfassung

Adobe Research und die Northwestern University haben eine KI-Technologie entwickelt, die Sounddesigner bei der Erstellung von Sounds durch Summen oder Nachahmen von Geräuschen unterstützt.

Anzeige

Das neue KI-System "Sketch2Sound" ermöglicht es, Sounds durch stimmliche Nachahmung und Textbeschreibungen zu erzeugen. Das System analysiert dafür drei wesentliche Klangmerkmale: Lautstärke, Klangfarbe (Helligkeit) und Tonhöhe. Diese Eigenschaften werden aus der stimmlichen Eingabe extrahiert und mit Textanweisungen kombiniert, um den gewünschten Sound zu generieren.

Den Forschern zufolge versteht das System die Absicht hinter einer Stimmimitation. Wenn jemand zum Beispiel bei der Texteingabe "Waldatmosphäre" kurze Geräusche nachahmt, erkennt das System automatisch, dass an dieser Stelle Vogelgeräusche platziert werden sollen - ohne dass dies explizit gesagt werden muss.

Ähnlich funktioniert es mit Schlagzeugrhythmen: Gibt man als Text "Bassdrum, Snaredrum" ein und imitiert einen Rhythmus mit tiefen und hohen Tönen, platziert das System automatisch die Bassdrum an den tiefen und die Snaredrum an den hohen Stellen.

Anzeige
Anzeige

Video: García et al., Adobe Research

Neues Werkzeug für Sounddesigner

Die Forscher haben auch eine spezielle Filtertechnik entwickelt, die es ermöglicht, die Genauigkeit der Kontrolle anzupassen. Sounddesigner können damit wählen, ob sie eine sehr präzise oder eher grobe Kontrolle über den generierten Klang haben möchten.

Die Forscher sehen in Sketch2Sound einen wichtigen Schritt auf dem Weg zu intuitiveren Werkzeugen für das Sounddesign. Das System könnte besonders für Foley-Künstler interessant sein, die Geräusche für Film und Fernsehen erstellen und dabei häufig Geräusche mit physischen Objekten imitieren.

Die Kombination von Stimmnachahmung und Textbeschreibung ermöglicht eine natürlichere und ausdrucksstärkere Arbeitsweise als rein textbasierte Systeme.

Ein Nachteil von Sketch2Sound ist, dass sich der Raumklang der Eingabe-Imitationen in das erzeugte Audio einschleichen kann. Die Forscher arbeiten jedoch an Lösungen für dieses Problem.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Adobe Research und die Northwestern University haben "Sketch2Sound" entwickelt, ein KI-System, das Sounddesigner beim Erstellen von Sounds durch stimmliche Nachahmung und Textbeschreibungen unterstützt.
  • Das System analysiert Lautstärke, Klangfarbe und Tonhöhe der Stimmimitation und kombiniert diese mit Textanweisungen, um den gewünschten Sound zu generieren.
  • Dabei versteht es die Absicht hinter der Imitation, etwa dass an einer bestimmten Stelle Vogelgeräusche oder ein bestimmter Schlagzeugrhythmus platziert werden sollen. Sketch2Sound könnte besonders für Foley-Künstler interessant sein, die Geräusche für Film und Fernsehen erstellen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!