Stability AI veröffentlicht kompaktes Text-zu-Audio-Modell für Smartphones

GPT-4o prompted by THE DECODER

Ein neues KI-Modell von Stability AI und Arm soll auf Smartphones bis zu elf Sekunden lange Stereo-Audiodateien in etwa sieben Sekunden generieren können.

Stable Audio Open Small basiert auf einer neuen Methode namens "Adversarial Relativistic-Contrastive" (ARC), die unter anderem von Forschenden der University of California, Berkeley entwickelt wurde. Auf leistungsfähigen Computern mit einer Nvidia-H100-GPU soll die Technologie Stereo-Audiosequenzen mit einer Abtastrate von 44 KHz in etwa 75 Millisekunden erzeugen können, also praktisch in Echtzeit.

Schon vor rund einem Jahr hatte Stability AI mit Stable Audio Open ein kostenloses KI-Modell mit 1,1 Milliarden Parametern veröffentlicht, das aus Textbeschreibungen Sound-Schnipsel generieren kann.

Die Small-Variante kommt mit 341 Millionen Parametern aus und ist damit auf weniger leistungsstarker Hardware lauffähig. Die Zusammenarbeit von Arm und Stability AI hatten die Unternehmen bereits im März angekündigt.

Optimierung für mobile Geräte

Um das System auf Smartphones lauffähig zu machen, haben die Entwickler:innen die Architektur des Modells grundlegend überarbeitet. Das Ergebnis ist ein dreiteiliges System: Ein Autoencoder komprimiert zunächst die Audiodaten, ein Embedding-System verarbeitet die Textbefehle und ein spezielles Diffusionsmodell erzeugt daraus die Audiodateien.

Durch diese optimierte Struktur ohne Destillation konnte der Speicherverbrauch von 6,5 auf 3,6 Gigabyte reduziert werden. Dies ermöglicht erstmals den Einsatz solcher KI-Modelle auf Smartphones und anderen mobilen Geräten. Für die Tests nutzen die Forschenden ein Vivo X200 Pro, ein im Herbst 2024 vorgestelltes Android-Flaggschiff mit 12 GB RAM und Mediatek Dimensity 9400 als System-on-a-Chip.

Fokus auf Soundeffekte

Nach Angaben von Stability AI eignet sich das Modell besonders gut für die Generierung von Soundeffekten und Feldaufnahmen. Bei der Erzeugung von Musik gebe es noch Einschränkungen. Insbesondere könne das System keine realistischen Gesangsstimmen erzeugen, auch funktioniere es nur mit englischsprachigen Beschreibungen optimal.

Das Training erfolgte mit rund 472.000 Audioaufnahmen aus der kostenlosen Audio-Datenbank Freesound, die unter CC0-, CC-BY- oder CC-Sampling+-Lizenzen stehen. Um urheberrechtlich geschützte Inhalte auszuschließen, wurden die Trainingsdaten vorab durch verschiedene Prüfverfahren gefiltert.

Die Software ist als Open Source unter der Stability AI Community License verfügbar. Für kommerzielle Nutzung gelten gesonderte Lizenzbedingungen. Der Quellcode ist auf GitHub veröffentlicht, die Modellgewichte sind über Hugging Face zugänglich.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI-Forschung

Stability AI veröffentlicht kompaktes Text-zu-Audio-Modell für Smartphones

Optimierung für mobile Geräte

Fokus auf Soundeffekte

Hm, Moment mal! Forscher warnen vor vermenschlichten KI-"Gedankengängen"

OpenAI-KI gewinnt Gold bei Informatik-Olympiade

KI-Kritiker Gary Marcus: GPT-5 ist "überfällig, überhyped und unterwältigend"

Nvidia-Forschende plädieren für mehr kleine Modelle in KI-Agenten

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Stability AI veröffentlicht kompaktes Text-zu-Audio-Modell für Smartphones

Optimierung für mobile Geräte

Fokus auf Soundeffekte

Artikel teilen

Bankverbindung