Riffusion: KI-Musik aus Bildern von Stable Diffusion

Forscher erzeugen Musik aus Text über den Umweg Stable Diffusion.

Die Musiklandschaft hat sich bislang durch die jüngsten Fortschritte generativer KI-Modelle nicht so drastisch verändert wie die Text- oder Bild-Industrie - und es gibt gute Gründe für den langsameren Fortschritt. Doch auch im Audio-Bereich gibt es vermehrt Beispiele für den Einsatz generativer KI-Modelle.

Eines davon ist Riffusion, ein KI-Generator des Unternehmers Seth Forsgren und des Ingenieurs Hayk Martiros. Der Generator baut auf dem eigentlich für Bilder gedachten Open-Source-Modell Stable Diffusion auf.

Riffusion erzeugt aus Stable-Diffusion-Bildern Musik. Über die Webseite lässt sich das Programm wie gewohnt per Prompt steuern. | Bild: Screenshot / THE DECODER

Stable Diffusion generiert Spektrogramme, die dann zu Musik werden

Der Ansatz von Riffusion ist recht einfach: Stable Diffusion v1.5 generiert Bilder von Soundwellen, die anschließend in hörbare Musik umgewandelt werden. Das Modell sei lediglich mit Bildern von Spektrogrammen feinjustiert, statt neu programmiert, schreiben die Entwickler.

Ein Spektrogramm ist eine visuelle Darstellung des Frequenzinhalts eines Soundabschnitts. Die x-Achse repräsentiert die Zeit, die y-Achse die Frequenz. Die Farbe jedes Pixels gibt die Amplitude des Tons an der jeweiligen Stelle an.

Video: Riffusion

Riffusion könne unendlich viele Variationen eines Prompts erzeugen, indem es den Seed variiert. Alle aus Stable Diffusion bekannten Techniken wie img2img, Inpainting oder negative Prompts seien außerdem sofort einsatzbereit.

Werdet kreativ beim Schreiben von Prompts! Versucht es mit euren Lieblingsstilen, Instrumenten wie Saxophon oder Geige, Modifikatoren wie arabisch oder jamaikanisch, Genres wie Jazz oder Rock, Klängen wie Kirchenglocken oder Regen oder einer beliebigen Kombination. Viele Wörter, die in den Trainingsdaten nicht vorkommen, funktionieren trotzdem, weil der Text-Encoder Wörter mit ähnlicher Semantik assoziieren kann.

Je näher ein Prompt dem Seed-Image und BPM ist, desto besser sind die Ergebnisse. Ein Prompt für ein Genre, dessen BPM sehr viel schneller ist als die des Ausgangsbildes, führt beispielsweise zu einem schlechten, generischen Audio.

Riffusion

Riffusion kostenlos ausprobieren

Riffusion könnt ihr auf der offiziellen Webseite ohne Registrierung direkt ausprobieren. Einstellungsmöglichkeiten beschränken sich auf fünf verschiedene Seed Images, die sich auf melodische Muster auswirken, sowie vier Stufen von Denoising. Je größer ihr den Faktor des Denoisings wählt, desto kreativer wird zwar das Ergebnis, desto weniger trifft es allerdings auch den Takt.

Empfehlung

KI-Forschung

KI-Agenten übertreffen menschliche Hackerteams in Cybersecurity-Wettbewerben

Riffusion Demo - Prompt: "A robotic skull with a neural net half seen in the brain and a violin on the shoulder"

Den erstellten Beat könnt ihr über einen Link direkt mit anderen teilen oder als fünfsekündigen Ausschnitt im MP3-Format herunterladen und anschließend in entsprechender Audio-Software weiterverarbeiten. Werke von Nutzer:innen finden sich im Riffusion Subreddit.

Zudem erstellen Nutzer:innen erste Custom-Riffusion-Modelle, die auf einzelne Künstler oder Bands trainiert sind - hier etwa ein Modell für die Band "Rammstein" (Sound-Beispiele). Der generierte Sound hat zwar eine bescheidene Qualität, der Stil der Band ist allerdings unverkennbar. Eine Anleitung gibt es hier.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Riffusion: KI-Musik aus Bildern von Stable Diffusion

Stable Diffusion generiert Spektrogramme, die dann zu Musik werden

Riffusion kostenlos ausprobieren

KI-Agenten übertreffen menschliche Hackerteams in Cybersecurity-Wettbewerben

Googles Open-Source-Modell MedGemma analysiert Röntgenbilder und Hautfotos

Anthropic-Studie deckt strategisches Verhalten von KI zum Schutz eigener Ziele auf

Studie enthüllt "strategische Fingerabdrücke" von KI-Modellen im Spieltheorie-Klassiker

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Riffusion: KI-Musik aus Bildern von Stable Diffusion

Stable Diffusion generiert Spektrogramme, die dann zu Musik werden

Riffusion kostenlos ausprobieren

Artikel teilen

Bankverbindung