Stability AI veröffentlicht kompaktes Text-zu-Audio-Modell für Smartphones
Kurz & Knapp
- Stability AI und Arm haben ein KI-Modell für Smartphones entwickelt, das Stereo-Audiodateien von bis zu elf Sekunden Länge in etwa sieben Sekunden erzeugen kann.
- Das neue Modell "Stable Audio Open Small" nutzt 341 Millionen Parameter und benötigt nur 3,6 Gigabyte Speicher. Tests erfolgten auf einem Vivo X200 Pro Smartphone mit 12 GB RAM.
- Das System wurde mit 472.000 lizenzfreien Audioaufnahmen trainiert und eignet sich besonders für Soundeffekte, hat aber noch Einschränkungen bei Musik und Gesangsstimmen. Der Code ist als Open Source auf GitHub verfügbar.
Ein neues KI-Modell von Stability AI und Arm soll auf Smartphones bis zu elf Sekunden lange Stereo-Audiodateien in etwa sieben Sekunden generieren können.
Stable Audio Open Small basiert auf einer neuen Methode namens "Adversarial Relativistic-Contrastive" (ARC), die unter anderem von Forschenden der University of California, Berkeley entwickelt wurde. Auf leistungsfähigen Computern mit einer Nvidia-H100-GPU soll die Technologie Stereo-Audiosequenzen mit einer Abtastrate von 44 KHz in etwa 75 Millisekunden erzeugen können, also praktisch in Echtzeit.
Schon vor rund einem Jahr hatte Stability AI mit Stable Audio Open ein kostenloses KI-Modell mit 1,1 Milliarden Parametern veröffentlicht, das aus Textbeschreibungen Sound-Schnipsel generieren kann.
Die Small-Variante kommt mit 341 Millionen Parametern aus und ist damit auf weniger leistungsstarker Hardware lauffähig. Die Zusammenarbeit von Arm und Stability AI hatten die Unternehmen bereits im März angekündigt.
Optimierung für mobile Geräte
Um das System auf Smartphones lauffähig zu machen, haben die Entwickler:innen die Architektur des Modells grundlegend überarbeitet. Das Ergebnis ist ein dreiteiliges System: Ein Autoencoder komprimiert zunächst die Audiodaten, ein Embedding-System verarbeitet die Textbefehle und ein spezielles Diffusionsmodell erzeugt daraus die Audiodateien.
Durch diese optimierte Struktur ohne Destillation konnte der Speicherverbrauch von 6,5 auf 3,6 Gigabyte reduziert werden. Dies ermöglicht erstmals den Einsatz solcher KI-Modelle auf Smartphones und anderen mobilen Geräten. Für die Tests nutzen die Forschenden ein Vivo X200 Pro, ein im Herbst 2024 vorgestelltes Android-Flaggschiff mit 12 GB RAM und Mediatek Dimensity 9400 als System-on-a-Chip.
Fokus auf Soundeffekte
Nach Angaben von Stability AI eignet sich das Modell besonders gut für die Generierung von Soundeffekten und Feldaufnahmen. Bei der Erzeugung von Musik gebe es noch Einschränkungen. Insbesondere könne das System keine realistischen Gesangsstimmen erzeugen, auch funktioniere es nur mit englischsprachigen Beschreibungen optimal.
Das Training erfolgte mit rund 472.000 Audioaufnahmen aus der kostenlosen Audio-Datenbank Freesound, die unter CC0-, CC-BY- oder CC-Sampling+-Lizenzen stehen. Um urheberrechtlich geschützte Inhalte auszuschließen, wurden die Trainingsdaten vorab durch verschiedene Prüfverfahren gefiltert.
Die Software ist als Open Source unter der Stability AI Community License verfügbar. Für kommerzielle Nutzung gelten gesonderte Lizenzbedingungen. Der Quellcode ist auf GitHub veröffentlicht, die Modellgewichte sind über Hugging Face zugänglich.
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.