Das US-Start-up Suno hat sich auf KI-Audiogenerierung aus Text spezialisiert. Das neueste Audiomodell erzeugt zum Teil beeindruckende Songs.
Anfang September stellte Suno sein neuestes Text-zu-Song-Modell Chirp v1 vor: Es kann Musik samt Gesang anhand von Textvorgaben zu Stil und Liedtext generieren. Die größte Neuerung ist, dass v1 Genres wie Rock, Pop, K-Pop sowie Beschreibungen wie melodisch oder schnell in Musik umsetzen kann.
Texte können nun mit Befehlen wie [verse] und [chorus] in Strophen unterteilt werden, um den generierten Songs mehr Struktur zu geben. Der Text kann entweder selbst eingetippt oder direkt in der Chirp-Oberfläche von ChatGPT mithilfe eines Prompts generiert werden.
Das Start-up betont, dass Prompts mit konkretem Künstlerbezug nicht unterstützt werden, wohl auch um Copyright-Diskussionen zu vermeiden. Die kamen unter anderem auf, als ein KI-generierter Song mit den Stimmen von "Drake" und "the Weeknd" viral ging und daraufhin von der Universal Music Group gesperrt wurde.
KI-Song-Generierung bei Discord
Ähnlich wie bei Midjourney ist die Chirp-Generierung vollständig in Discord integriert. Für jeden Chirp-Befehl generiert das Modell zwei Vorschläge, die in der Regel zwischen 20 und 40 Sekunden lang sind. Gefällt eine Variante, kann sie mit einem Klick auf "Continue" fortgesetzt werden. Die fertigen Songs können zwischen zwei und drei Minuten lang sein.
Einige besonders gelungene Demos des neuen Modells demonstriert Suno auf einer Website. Wer sich inspirieren lassen oder die Möglichkeiten von Chirp kennenlernen möchte, kann auch einfach auf den Discord-Servern stöbern - mehr als 40.000 Nutzerinnen und Nutzer sorgen für ständigen Song-Nachschub.
Da findet sich das eine oder andere Kleinod, wie dieses politisch motivierte Liebeslied. Ob wir es bald öfter hören werden?
Oder man nimmt bestehende Texte bekannter Lieder und lässt sie von der KI in einem neuen musikalischen Stil generieren.
Die Komplexität der Songs in Kombination mit der Qualität der generierten Stimmen ist teilweise beeindruckend. Zwar ist hier noch kein Chartstürmer dabei, aber bei dem derzeitigen Entwicklungstempo der generativen KI kann sich das schnell ändern.
Suno unterstützt mehr als 50 Sprachen, wobei Englisch und Rockmusik in meinen Tests am besten abschnitten. Darüber hinaus scheint auch der Inhalt bzw. die Struktur der Strophen den Stil zu beeinflussen. Zu jedem Audioclip wird auf Basis des Textes ein passendes Hintergrundbild generiert.
Kostenlose Chirps auf Discord
Suno bietet auf Discord 250 kostenlose Credits pro Monat an, was 25 Chirps entspricht. Die Generierung ist entweder auf dem öffentlichen Server oder in den Discord DMs möglich. Ein Pro-Plan bietet 1000 Credits / bis zu 100 Chirps pro Monat und kostet 10 Dollar pro Monat. Weitere Generierungen können hinzugekauft werden. Mehr Informationen zu den Bezahlmodellen gibt es hier.
Mit Bark hat Suno im Frühjahr ein Text-to-Speech- und Sound-Modell vorgestellt, das auf Github unter MIT License frei verfügbar ist und kommerziell genutzt werden darf.