Stability AI veröffentlicht kompaktes Text-zu-Audio-Modell für Smartphones
Ein neues KI-Modell von Stability AI und Arm soll auf Smartphones bis zu elf Sekunden lange Stereo-Audiodateien in etwa sieben Sekunden generieren können.
Stable Audio Open Small basiert auf einer neuen Methode namens "Adversarial Relativistic-Contrastive" (ARC), die unter anderem von Forschenden der University of California, Berkeley entwickelt wurde. Auf leistungsfähigen Computern mit einer Nvidia-H100-GPU soll die Technologie Stereo-Audiosequenzen mit einer Abtastrate von 44 KHz in etwa 75 Millisekunden erzeugen können, also praktisch in Echtzeit.
Schon vor rund einem Jahr hatte Stability AI mit Stable Audio Open ein kostenloses KI-Modell mit 1,1 Milliarden Parametern veröffentlicht, das aus Textbeschreibungen Sound-Schnipsel generieren kann.
Die Small-Variante kommt mit 341 Millionen Parametern aus und ist damit auf weniger leistungsstarker Hardware lauffähig. Die Zusammenarbeit von Arm und Stability AI hatten die Unternehmen bereits im März angekündigt.
Optimierung für mobile Geräte
Um das System auf Smartphones lauffähig zu machen, haben die Entwickler:innen die Architektur des Modells grundlegend überarbeitet. Das Ergebnis ist ein dreiteiliges System: Ein Autoencoder komprimiert zunächst die Audiodaten, ein Embedding-System verarbeitet die Textbefehle und ein spezielles Diffusionsmodell erzeugt daraus die Audiodateien.
Durch diese optimierte Struktur ohne Destillation konnte der Speicherverbrauch von 6,5 auf 3,6 Gigabyte reduziert werden. Dies ermöglicht erstmals den Einsatz solcher KI-Modelle auf Smartphones und anderen mobilen Geräten. Für die Tests nutzen die Forschenden ein Vivo X200 Pro, ein im Herbst 2024 vorgestelltes Android-Flaggschiff mit 12 GB RAM und Mediatek Dimensity 9400 als System-on-a-Chip.
Fokus auf Soundeffekte
Nach Angaben von Stability AI eignet sich das Modell besonders gut für die Generierung von Soundeffekten und Feldaufnahmen. Bei der Erzeugung von Musik gebe es noch Einschränkungen. Insbesondere könne das System keine realistischen Gesangsstimmen erzeugen, auch funktioniere es nur mit englischsprachigen Beschreibungen optimal.
Das Training erfolgte mit rund 472.000 Audioaufnahmen aus der kostenlosen Audio-Datenbank Freesound, die unter CC0-, CC-BY- oder CC-Sampling+-Lizenzen stehen. Um urheberrechtlich geschützte Inhalte auszuschließen, wurden die Trainingsdaten vorab durch verschiedene Prüfverfahren gefiltert.
Die Software ist als Open Source unter der Stability AI Community License verfügbar. Für kommerzielle Nutzung gelten gesonderte Lizenzbedingungen. Der Quellcode ist auf GitHub veröffentlicht, die Modellgewichte sind über Hugging Face zugänglich.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.