Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Forscher erzeugen Musik aus Text über den Umweg Stable Diffusion.

Die Musiklandschaft hat sich bislang durch die jüngsten Fortschritte generativer KI-Modelle nicht so drastisch verändert wie die Text- oder Bild-Industrie - und es gibt gute Gründe für den langsameren Fortschritt. Doch auch im Audio-Bereich gibt es vermehrt Beispiele für den Einsatz generativer KI-Modelle.

Eines davon ist Riffusion, ein KI-Generator des Unternehmers Seth Forsgren und des Ingenieurs Hayk Martiros. Der Generator baut auf dem eigentlich für Bilder gedachten Open-Source-Modell Stable Diffusion auf.

Riffusion erzeugt aus Stable-Diffusion-Bildern Musik. Über die Webseite lässt sich das Programm wie gewohnt per Prompt steuern. | Bild: Screenshot / THE DECODER

Stable Diffusion generiert Spektrogramme, die dann zu Musik werden

Der Ansatz von Riffusion ist recht einfach: Stable Diffusion v1.5 generiert Bilder von Soundwellen, die anschließend in hörbare Musik umgewandelt werden. Das Modell sei lediglich mit Bildern von Spektrogrammen feinjustiert, statt neu programmiert, schreiben die Entwickler.

Anzeige
Anzeige

Ein Spektrogramm ist eine visuelle Darstellung des Frequenzinhalts eines Soundabschnitts. Die x-Achse repräsentiert die Zeit, die y-Achse die Frequenz. Die Farbe jedes Pixels gibt die Amplitude des Tons an der jeweiligen Stelle an.

Video: Riffusion

Riffusion könne unendlich viele Variationen eines Prompts erzeugen, indem es den Seed variiert. Alle aus Stable Diffusion bekannten Techniken wie img2img, Inpainting oder negative Prompts seien außerdem sofort einsatzbereit.

Werdet kreativ beim Schreiben von Prompts! Versucht es mit euren Lieblingsstilen, Instrumenten wie Saxophon oder Geige, Modifikatoren wie arabisch oder jamaikanisch, Genres wie Jazz oder Rock, Klängen wie Kirchenglocken oder Regen oder einer beliebigen Kombination. Viele Wörter, die in den Trainingsdaten nicht vorkommen, funktionieren trotzdem, weil der Text-Encoder Wörter mit ähnlicher Semantik assoziieren kann.

Je näher ein Prompt dem Seed-Image und BPM ist, desto besser sind die Ergebnisse. Ein Prompt für ein Genre, dessen BPM sehr viel schneller ist als die des Ausgangsbildes, führt beispielsweise zu einem schlechten, generischen Audio.

Riffusion

Riffusion kostenlos ausprobieren

Riffusion könnt ihr auf der offiziellen Webseite ohne Registrierung direkt ausprobieren. Einstellungsmöglichkeiten beschränken sich auf fünf verschiedene Seed Images, die sich auf melodische Muster auswirken, sowie vier Stufen von Denoising. Je größer ihr den Faktor des Denoisings wählt, desto kreativer wird zwar das Ergebnis, desto weniger trifft es allerdings auch den Takt.

 

Empfehlung

Riffusion Demo - Prompt: "A robotic skull with a neural net half seen in the brain and a violin on the shoulder"

Den erstellten Beat könnt ihr über einen Link direkt mit anderen teilen oder als fünfsekündigen Ausschnitt im MP3-Format herunterladen und anschließend in entsprechender Audio-Software weiterverarbeiten. Werke von Nutzer:innen finden sich im Riffusion Subreddit.

Zudem erstellen Nutzer:innen erste Custom-Riffusion-Modelle, die auf einzelne Künstler oder Bands trainiert sind - hier etwa ein Modell für die Band "Rammstein" (Sound-Beispiele). Der generierte Sound hat zwar eine bescheidene Qualität, der Stil der Band ist allerdings unverkennbar. Eine Anleitung gibt es hier.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die KI-Software Riffusion kann aus kurzen Textbefehlen passende Musik generieren.
  • Dafür geht Riffusion allerdings den Umweg über Bilder: Aus einem Prompt erstellt Stable Diffusion ein sogenanntes Spektrogramm, eine visuelle Darstellung des Frequenzinhalts eines Soundabschnitts, der dann zu Musik wird.
  • Custom-Riffusion-Modelle sind mit Songs einzelner Künstler oder Bands feinjustiert und replizieren eindeutig deren Stil.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!