Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
DEEP MINDS #12: Künstliche Intelligenz regulieren

KI-Forschende von Sony zeigen GANstrument, einen neuronalen Synthesizer, der beliebige Input-Sounds in Instrumentenklänge verwandelt.

Generative KI-Systeme wie DALL-E 2, Midjourney oder Stable Diffusion wirbeln aktuell die bildende Kunst auf. Die Text-zu-Bild-Systeme erlauben beeindruckende Ergebnisse selbst mit einfachen Text-Eingaben.

Vergleichbar leistungsfähige Systeme gibt es in der Musik bisher nicht. Doch auch hier zeigen jüngste Versuche wie das generative Text-zu-Musik-Modell des US-Start-up Mubert, wo die Reise hingehen könnte.

Abseits der vollständigen Generierung von Musik gibt es im Forschungsfeld noch einen zweiten Schwerpunkt: Die Synthese einzelner Noten, die anschließend in einem symbolischen Format wie MIDI (Musical Instrument Digital Interface) abgespielt wird. Dies ermöglicht die unabhängige Steuerung von MIDI und Klangfarbe. Das Verfahren ist kompatibel mit Produktionsabläufen in der Musikindustrie.

Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung

In einer neuen Arbeit zeigen KI-Forschende von Sony nun GANstrument, einen neuralen Synthesizer für Instrumentenklänge.

GANstrument: Sony zeigt GAN-basierten neuronalen Synthesizer

Aktuell werden realistische Instrumentenklänge mit Samplern synthetisiert, die aufgezeichnete Klänge verwenden. Obwohl beliebiges Klangmaterial genutzt werden könne, sei es schwierig, eine völlig neue Klangfarbe zu synthetisieren oder mehrere Klänge auf intelligente Weise zu kombinieren, so Sony.

Generative KI-Modelle für die Audiosynthese hätten jedoch gezeigt, dass KI eine Vielzahl von Klangfarben erzeugen und mischen könne.

Ziel des Forschungsteams ist daher die Entwicklung eines neuronalen Synthesizers, der die Flexibilität von klassischen Samplern mit der generativen Kraft von neuronalen Netzen kombiniert. Nutzer:innen sollen die Klangfarbe anhand von vorhandenem Klangmaterial frei steuern.

Sony greift dafür auf ein GA-Netz (Generative Adversarial Networks) zurück, das mit in Mel-Spektrogramme verwandelten Wellenformen trainiert wird. Das Team setzt dabei auf eine sogenannte Instanzkonditionierung statt auf eine Klassenkonditionierung, wie sie üblicherweise im GAN-Training verwendet wird.

Empfehlung

Bei der Klassenkonditionierung werden die Daten in verschiedene Verteilungen ohne Überschneidung sortiert, bei der Instanzkonditionierung dagegen in viele überlappende lokale Distributionen.

GANstrument kann einen Hahnenschrei in ein Cello-Stück verwandeln

Zusammen mit anderen Verbesserungen, wie einem Feature-Extraktor, der invariant gegenüber Tonhöhen ist, erreiche GANstrument so bessere und vielfältigere synthetisierten Klänge sowie die Generalisierung auf verschiedene Sound-Inputs, schreibt das Team. GANstrument kann so etwa Flöten- in Blechbläserklänge oder Orgel- in Gitarrenklänge verwandeln.

Flöte

 

Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Blechbläser

Interpolation (Input 1 to 2)

Das KI-System kann zudem verschiedene Instrumente stufenlos miteinander vermischen und so etwa zwei Input-Instrumente in einem Track zusammenführen.

Melody (Mallet to Reed)

Input 1

Input 2

Interpolation (Input 1 to 2)

Das System funktioniert auch mit Input-Sounds, die es vorher noch nie gehört hat. Es kann diese in bekannte Instrumentenklänge verwandeln oder die Tonhöhe des Inputs ändern. GANstrument kann daher auch einen Hahnenschrei oder das Miauen einer Katze in Töne verschiedener Tonhöhen umwandeln.

Rooster Chicken

Pitch 48

Pitch 55

Pitch 60

Laut Sony generiert GANstrument einen Ton in 1,62 Sekunden auf einer Intel Core i7-7800X CPU.

Unser neuartiger neuronaler Synthesizer, GANStrument, erzeugt gepitchte Instrumentenklänge, die innerhalb einer interaktiven Zeitspanne eine One-shot Input Klangfarbe widerspiegeln. Er beinhaltet zwei Schlüsselfunktionen: 1) Instanzkonditionierung, die zu einer besseren Erzeugungsqualität und Generalisierungsfähigkeit für verschiedene Eingaben führt, und 2) tonhöheninvariante Merkmalsextraktion auf der Grundlage von adversarialem Training, was zu einer deutlich verbesserten Tonhöhengenauigkeit und Klangfarbenkonsistenz führt.

Sony

Die Autoren glauben, dass GANstrument neuartige Instrumentenklänge erzeugen kann und gewünschte Klangfarben frei erforschbar macht, indem es eine Vielzahl von Klangmaterialien nutzen. Weiter Beispiele gibt es auf der Projektseite von GANstrument.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • KI-Forscher von Sony zeigen GANstrument, einen neuronalen Synthesizer für die Klangsynthese von Instrumenten.
  • GANstrument kann aus einem einzigen Ton in unter zwei Sekunden Tonhöhen erzeugen, die die Klangfarbe der Eingabe widerspiegeln, sowie mehrere Klänge nahtlos interpolieren.
  • Im Gegensatz zur End-to-End-Musiksynthese generativer KI-Systeme ermöglicht GANstrument eine unabhängige Steuerung von MIDIs und Klangfarben, was mit typischen Produktionsabläufen in der Musikindustrie kompatibel ist.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!