KI-Forschung

Sonys GANstrument macht aus einem Gockelhahn ein Cello

Maximilian Schreiner
Ein Hahn spielt auf einem Cello und wird dabei von Küken beobachtet, digitale Kunst

DALL-E 2 prompted by THE DECODER

KI-Forschende von Sony zeigen GANstrument, einen neuronalen Synthesizer, der beliebige Input-Sounds in Instrumentenklänge verwandelt.

Generative KI-Systeme wie DALL-E 2, Midjourney oder Stable Diffusion wirbeln aktuell die bildende Kunst auf. Die Text-zu-Bild-Systeme erlauben beeindruckende Ergebnisse selbst mit einfachen Text-Eingaben.

Vergleichbar leistungsfähige Systeme gibt es in der Musik bisher nicht. Doch auch hier zeigen jüngste Versuche wie das generative Text-zu-Musik-Modell des US-Start-up Mubert, wo die Reise hingehen könnte.

Abseits der vollständigen Generierung von Musik gibt es im Forschungsfeld noch einen zweiten Schwerpunkt: Die Synthese einzelner Noten, die anschließend in einem symbolischen Format wie MIDI (Musical Instrument Digital Interface) abgespielt wird. Dies ermöglicht die unabhängige Steuerung von MIDI und Klangfarbe. Das Verfahren ist kompatibel mit Produktionsabläufen in der Musikindustrie.

In einer neuen Arbeit zeigen KI-Forschende von Sony nun GANstrument, einen neuralen Synthesizer für Instrumentenklänge.

GANstrument: Sony zeigt GAN-basierten neuronalen Synthesizer

Aktuell werden realistische Instrumentenklänge mit Samplern synthetisiert, die aufgezeichnete Klänge verwenden. Obwohl beliebiges Klangmaterial genutzt werden könne, sei es schwierig, eine völlig neue Klangfarbe zu synthetisieren oder mehrere Klänge auf intelligente Weise zu kombinieren, so Sony.

Generative KI-Modelle für die Audiosynthese hätten jedoch gezeigt, dass KI eine Vielzahl von Klangfarben erzeugen und mischen könne.

Ziel des Forschungsteams ist daher die Entwicklung eines neuronalen Synthesizers, der die Flexibilität von klassischen Samplern mit der generativen Kraft von neuronalen Netzen kombiniert. Nutzer:innen sollen die Klangfarbe anhand von vorhandenem Klangmaterial frei steuern.

Sony greift dafür auf ein GA-Netz (Generative Adversarial Networks) zurück, das mit in Mel-Spektrogramme verwandelten Wellenformen trainiert wird. Das Team setzt dabei auf eine sogenannte Instanzkonditionierung statt auf eine Klassenkonditionierung, wie sie üblicherweise im GAN-Training verwendet wird.

Bei der Klassenkonditionierung werden die Daten in verschiedene Verteilungen ohne Überschneidung sortiert, bei der Instanzkonditionierung dagegen in viele überlappende lokale Distributionen.

GANstrument kann einen Hahnenschrei in ein Cello-Stück verwandeln

Zusammen mit anderen Verbesserungen, wie einem Feature-Extraktor, der invariant gegenüber Tonhöhen ist, erreiche GANstrument so bessere und vielfältigere synthetisierten Klänge sowie die Generalisierung auf verschiedene Sound-Inputs, schreibt das Team. GANstrument kann so etwa Flöten- in Blechbläserklänge oder Orgel- in Gitarrenklänge verwandeln.

Flöte

https://the-decoder.de/wp-content/uploads/2022/11/query1_audio-1.wav?_=1

 

Blechbläser

https://the-decoder.de/wp-content/uploads/2022/11/query2_audio-1.wav?_=2

Interpolation (Input 1 to 2)

https://the-decoder.de/wp-content/uploads/2022/11/FluteBrass.mp3?_=3

Das KI-System kann zudem verschiedene Instrumente stufenlos miteinander vermischen und so etwa zwei Input-Instrumente in einem Track zusammenführen.

Melody (Mallet to Reed)

Input 1

https://the-decoder.de/wp-content/uploads/2022/11/query1_audio.wav?_=4

Input 2

https://the-decoder.de/wp-content/uploads/2022/11/query2_audio.wav?_=5

Interpolation (Input 1 to 2)

https://the-decoder.de/wp-content/uploads/2022/11/MalletReed.wav?_=6

Das System funktioniert auch mit Input-Sounds, die es vorher noch nie gehört hat. Es kann diese in bekannte Instrumentenklänge verwandeln oder die Tonhöhe des Inputs ändern. GANstrument kann daher auch einen Hahnenschrei oder das Miauen einer Katze in Töne verschiedener Tonhöhen umwandeln.

Rooster Chicken

https://the-decoder.de/wp-content/uploads/2022/11/query_audio.wav?_=7

Pitch 48

https://the-decoder.de/wp-content/uploads/2022/11/fake_audio_pitch_27.wav?_=8

Pitch 55

https://the-decoder.de/wp-content/uploads/2022/11/fake_audio_pitch_34.wav?_=9

Pitch 60

https://the-decoder.de/wp-content/uploads/2022/11/fake_audio_pitch_39.wav?_=10

Laut Sony generiert GANstrument einen Ton in 1,62 Sekunden auf einer Intel Core i7-7800X CPU.

Unser neuartiger neuronaler Synthesizer, GANStrument, erzeugt gepitchte Instrumentenklänge, die innerhalb einer interaktiven Zeitspanne eine One-shot Input Klangfarbe widerspiegeln. Er beinhaltet zwei Schlüsselfunktionen: 1) Instanzkonditionierung, die zu einer besseren Erzeugungsqualität und Generalisierungsfähigkeit für verschiedene Eingaben führt, und 2) tonhöheninvariante Merkmalsextraktion auf der Grundlage von adversarialem Training, was zu einer deutlich verbesserten Tonhöhengenauigkeit und Klangfarbenkonsistenz führt.

Sony

Die Autoren glauben, dass GANstrument neuartige Instrumentenklänge erzeugen kann und gewünschte Klangfarben frei erforschbar macht, indem es eine Vielzahl von Klangmaterialien nutzen. Weiter Beispiele gibt es auf der Projektseite von GANstrument.

Quellen: