Sonys GANstrument macht aus einem Gockelhahn ein Cello

KI-Forschende von Sony zeigen GANstrument, einen neuronalen Synthesizer, der beliebige Input-Sounds in Instrumentenklänge verwandelt.

Generative KI-Systeme wie DALL-E 2, Midjourney oder Stable Diffusion wirbeln aktuell die bildende Kunst auf. Die Text-zu-Bild-Systeme erlauben beeindruckende Ergebnisse selbst mit einfachen Text-Eingaben.

Vergleichbar leistungsfähige Systeme gibt es in der Musik bisher nicht. Doch auch hier zeigen jüngste Versuche wie das generative Text-zu-Musik-Modell des US-Start-up Mubert, wo die Reise hingehen könnte.

Abseits der vollständigen Generierung von Musik gibt es im Forschungsfeld noch einen zweiten Schwerpunkt: Die Synthese einzelner Noten, die anschließend in einem symbolischen Format wie MIDI (Musical Instrument Digital Interface) abgespielt wird. Dies ermöglicht die unabhängige Steuerung von MIDI und Klangfarbe. Das Verfahren ist kompatibel mit Produktionsabläufen in der Musikindustrie.

In einer neuen Arbeit zeigen KI-Forschende von Sony nun GANstrument, einen neuralen Synthesizer für Instrumentenklänge.

GANstrument: Sony zeigt GAN-basierten neuronalen Synthesizer

Aktuell werden realistische Instrumentenklänge mit Samplern synthetisiert, die aufgezeichnete Klänge verwenden. Obwohl beliebiges Klangmaterial genutzt werden könne, sei es schwierig, eine völlig neue Klangfarbe zu synthetisieren oder mehrere Klänge auf intelligente Weise zu kombinieren, so Sony.

Generative KI-Modelle für die Audiosynthese hätten jedoch gezeigt, dass KI eine Vielzahl von Klangfarben erzeugen und mischen könne.

Ziel des Forschungsteams ist daher die Entwicklung eines neuronalen Synthesizers, der die Flexibilität von klassischen Samplern mit der generativen Kraft von neuronalen Netzen kombiniert. Nutzer:innen sollen die Klangfarbe anhand von vorhandenem Klangmaterial frei steuern.

Sony greift dafür auf ein GA-Netz (Generative Adversarial Networks) zurück, das mit in Mel-Spektrogramme verwandelten Wellenformen trainiert wird. Das Team setzt dabei auf eine sogenannte Instanzkonditionierung statt auf eine Klassenkonditionierung, wie sie üblicherweise im GAN-Training verwendet wird.

Empfehlung

KI-Forschung

Studie deckt gravierende Logik-Schwächen bei kleinen KI-Sprachmodellen auf

Bei der Klassenkonditionierung werden die Daten in verschiedene Verteilungen ohne Überschneidung sortiert, bei der Instanzkonditionierung dagegen in viele überlappende lokale Distributionen.

GANstrument kann einen Hahnenschrei in ein Cello-Stück verwandeln

Zusammen mit anderen Verbesserungen, wie einem Feature-Extraktor, der invariant gegenüber Tonhöhen ist, erreiche GANstrument so bessere und vielfältigere synthetisierten Klänge sowie die Generalisierung auf verschiedene Sound-Inputs, schreibt das Team. GANstrument kann so etwa Flöten- in Blechbläserklänge oder Orgel- in Gitarrenklänge verwandeln.

Flöte

Audio-Player

00:00

Pfeiltasten Hoch/Runter benutzen, um die Lautstärke zu regeln.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Blechbläser

Audio-Player

00:00

Pfeiltasten Hoch/Runter benutzen, um die Lautstärke zu regeln.

Interpolation (Input 1 to 2)

Audio-Player

00:00

Pfeiltasten Hoch/Runter benutzen, um die Lautstärke zu regeln.

Das KI-System kann zudem verschiedene Instrumente stufenlos miteinander vermischen und so etwa zwei Input-Instrumente in einem Track zusammenführen.

Melody (Mallet to Reed)

Input 1

Audio-Player