KI-Forschende von Sony zeigen GANstrument, einen neuronalen Synthesizer, der beliebige Input-Sounds in Instrumentenklänge verwandelt.
Generative KI-Systeme wie DALL-E 2, Midjourney oder Stable Diffusion wirbeln aktuell die bildende Kunst auf. Die Text-zu-Bild-Systeme erlauben beeindruckende Ergebnisse selbst mit einfachen Text-Eingaben.
Vergleichbar leistungsfähige Systeme gibt es in der Musik bisher nicht. Doch auch hier zeigen jüngste Versuche wie das generative Text-zu-Musik-Modell des US-Start-up Mubert, wo die Reise hingehen könnte.
Abseits der vollständigen Generierung von Musik gibt es im Forschungsfeld noch einen zweiten Schwerpunkt: Die Synthese einzelner Noten, die anschließend in einem symbolischen Format wie MIDI (Musical Instrument Digital Interface) abgespielt wird. Dies ermöglicht die unabhängige Steuerung von MIDI und Klangfarbe. Das Verfahren ist kompatibel mit Produktionsabläufen in der Musikindustrie.
In einer neuen Arbeit zeigen KI-Forschende von Sony nun GANstrument, einen neuralen Synthesizer für Instrumentenklänge.
GANstrument: Sony zeigt GAN-basierten neuronalen Synthesizer
Aktuell werden realistische Instrumentenklänge mit Samplern synthetisiert, die aufgezeichnete Klänge verwenden. Obwohl beliebiges Klangmaterial genutzt werden könne, sei es schwierig, eine völlig neue Klangfarbe zu synthetisieren oder mehrere Klänge auf intelligente Weise zu kombinieren, so Sony.
Generative KI-Modelle für die Audiosynthese hätten jedoch gezeigt, dass KI eine Vielzahl von Klangfarben erzeugen und mischen könne.
Ziel des Forschungsteams ist daher die Entwicklung eines neuronalen Synthesizers, der die Flexibilität von klassischen Samplern mit der generativen Kraft von neuronalen Netzen kombiniert. Nutzer:innen sollen die Klangfarbe anhand von vorhandenem Klangmaterial frei steuern.
Sony greift dafür auf ein GA-Netz (Generative Adversarial Networks) zurück, das mit in Mel-Spektrogramme verwandelten Wellenformen trainiert wird. Das Team setzt dabei auf eine sogenannte Instanzkonditionierung statt auf eine Klassenkonditionierung, wie sie üblicherweise im GAN-Training verwendet wird.
Bei der Klassenkonditionierung werden die Daten in verschiedene Verteilungen ohne Überschneidung sortiert, bei der Instanzkonditionierung dagegen in viele überlappende lokale Distributionen.
GANstrument kann einen Hahnenschrei in ein Cello-Stück verwandeln
Zusammen mit anderen Verbesserungen, wie einem Feature-Extraktor, der invariant gegenüber Tonhöhen ist, erreiche GANstrument so bessere und vielfältigere synthetisierten Klänge sowie die Generalisierung auf verschiedene Sound-Inputs, schreibt das Team. GANstrument kann so etwa Flöten- in Blechbläserklänge oder Orgel- in Gitarrenklänge verwandeln.
Flöte
Blechbläser
Interpolation (Input 1 to 2)
Das KI-System kann zudem verschiedene Instrumente stufenlos miteinander vermischen und so etwa zwei Input-Instrumente in einem Track zusammenführen.
Melody (Mallet to Reed)
Input 1
Input 2
Interpolation (Input 1 to 2)
Das System funktioniert auch mit Input-Sounds, die es vorher noch nie gehört hat. Es kann diese in bekannte Instrumentenklänge verwandeln oder die Tonhöhe des Inputs ändern. GANstrument kann daher auch einen Hahnenschrei oder das Miauen einer Katze in Töne verschiedener Tonhöhen umwandeln.
Rooster Chicken
Pitch 48
Pitch 55
Pitch 60
Laut Sony generiert GANstrument einen Ton in 1,62 Sekunden auf einer Intel Core i7-7800X CPU.
Unser neuartiger neuronaler Synthesizer, GANStrument, erzeugt gepitchte Instrumentenklänge, die innerhalb einer interaktiven Zeitspanne eine One-shot Input Klangfarbe widerspiegeln. Er beinhaltet zwei Schlüsselfunktionen: 1) Instanzkonditionierung, die zu einer besseren Erzeugungsqualität und Generalisierungsfähigkeit für verschiedene Eingaben führt, und 2) tonhöheninvariante Merkmalsextraktion auf der Grundlage von adversarialem Training, was zu einer deutlich verbesserten Tonhöhengenauigkeit und Klangfarbenkonsistenz führt.
Sony
Die Autoren glauben, dass GANstrument neuartige Instrumentenklänge erzeugen kann und gewünschte Klangfarben frei erforschbar macht, indem es eine Vielzahl von Klangmaterialien nutzen. Weiter Beispiele gibt es auf der Projektseite von GANstrument.