Stability AI hat mit Stable Audio Open ein kostenloses KI-Modell veröffentlicht, mit dem sich Audiosamples, Soundeffekte und Produktionselemente aus Textbeschreibungen erzeugen lassen. Das Open-Source-Modell richtet sich an Sounddesigner, Musiker und Kreativschaffende.
Stability AI, das Unternehmen hinter dem populären KI-Bildgenerator Stable Diffusion, hat mit Stable Audio Open ein quelloffenes Modell für die Generierung von Audiodaten vorgestellt. Laut einer Mitteilung auf der Stability-AI-Website ermöglicht das KI-Modell die Erstellung von bis zu 47 Sekunden langen, qualitativ hochwertigen Audiosamples aus einfachen Textanweisungen.
Das Training des Modells ist speziell auf die Generierung von Drumbeats, Instrumentalriffs, Umgebungsgeräuschen, Foley-Aufnahmen und anderen Audioelementen für die Musikproduktion und das Sounddesign ausgerichtet.
Stable Audio Open soll einen Einblick in die Möglichkeiten der generativen KI für das Sounddesign geben und gleichzeitig eine verantwortungsvolle Entwicklung in Zusammenarbeit mit kreativen Communities gewährleisten. Für das Training von Stable Audio Open wurden Audiodaten von FreeSound und dem Free Music Archive verwendet, um die Rechte der Urheber zu wahren.
Zum Einstieg steht das Stable Audio Open Modell auf der Hugging Face Plattform zum Download bereit. Die Open-Source-Veröffentlichung ermöglicht es Benutzern zudem, das Modell mit ihren eigenen Audiodaten zu verfeinern und anzupassen.
Stability AI ermutigt Sounddesigner, Musiker, Entwickler und Audioenthusiasten, das Modell herunterzuladen und Feedback zu geben.
Im Gegensatz zum kommerziellen Produkt Stable Audio 2, das komplette Musikstücke von bis zu drei Minuten Länge erzeugen kann, ist Stable Audio Open auf kürzere Audiosamples und Soundeffekte spezialisiert. Es eigne sich weniger für die Generierung kompletter Songs, Melodien oder Gesang.