Ein neues KI-Modell von Stability AI und Arm soll auf Smartphones bis zu elf Sekunden lange Stereo-Audiodateien in etwa sieben Sekunden generieren können.
Stable Audio Open Small basiert auf einer neuen Methode namens "Adversarial Relativistic-Contrastive" (ARC), die unter anderem von Forschenden der University of California, Berkeley entwickelt wurde. Auf leistungsfähigen Computern mit einer Nvidia-H100-GPU soll die Technologie Stereo-Audiosequenzen mit einer Abtastrate von 44 KHz in etwa 75 Millisekunden erzeugen können, also praktisch in Echtzeit.
Schon vor rund einem Jahr hatte Stability AI mit Stable Audio Open ein kostenloses KI-Modell mit 1,1 Milliarden Parametern veröffentlicht, das aus Textbeschreibungen Sound-Schnipsel generieren kann.
Die Small-Variante kommt mit 341 Millionen Parametern aus und ist damit auf weniger leistungsstarker Hardware lauffähig. Die Zusammenarbeit von Arm und Stability AI hatten die Unternehmen bereits im März angekündigt.
Optimierung für mobile Geräte
Um das System auf Smartphones lauffähig zu machen, haben die Entwickler:innen die Architektur des Modells grundlegend überarbeitet. Das Ergebnis ist ein dreiteiliges System: Ein Autoencoder komprimiert zunächst die Audiodaten, ein Embedding-System verarbeitet die Textbefehle und ein spezielles Diffusionsmodell erzeugt daraus die Audiodateien.
Durch diese optimierte Struktur ohne Destillation konnte der Speicherverbrauch von 6,5 auf 3,6 Gigabyte reduziert werden. Dies ermöglicht erstmals den Einsatz solcher KI-Modelle auf Smartphones und anderen mobilen Geräten. Für die Tests nutzen die Forschenden ein Vivo X200 Pro, ein im Herbst 2024 vorgestelltes Android-Flaggschiff mit 12 GB RAM und Mediatek Dimensity 9400 als System-on-a-Chip.
Fokus auf Soundeffekte
Nach Angaben von Stability AI eignet sich das Modell besonders gut für die Generierung von Soundeffekten und Feldaufnahmen. Bei der Erzeugung von Musik gebe es noch Einschränkungen. Insbesondere könne das System keine realistischen Gesangsstimmen erzeugen, auch funktioniere es nur mit englischsprachigen Beschreibungen optimal.
Das Training erfolgte mit rund 472.000 Audioaufnahmen aus der kostenlosen Audio-Datenbank Freesound, die unter CC0-, CC-BY- oder CC-Sampling+-Lizenzen stehen. Um urheberrechtlich geschützte Inhalte auszuschließen, wurden die Trainingsdaten vorab durch verschiedene Prüfverfahren gefiltert.
Die Software ist als Open Source unter der Stability AI Community License verfügbar. Für kommerzielle Nutzung gelten gesonderte Lizenzbedingungen. Der Quellcode ist auf GitHub veröffentlicht, die Modellgewichte sind über Hugging Face zugänglich.