Inhalt
summary Zusammenfassung

Ein neues KI-Modell von Stability AI und Arm soll auf Smartphones bis zu elf Sekunden lange Stereo-Audiodateien in etwa sieben Sekunden generieren können. 

Anzeige

Stable Audio Open Small basiert auf einer neuen Methode namens "Adversarial Relativistic-Contrastive" (ARC), die unter anderem von Forschenden der University of California, Berkeley entwickelt wurde. Auf leistungsfähigen Computern mit einer Nvidia-H100-GPU soll die Technologie Stereo-Audiosequenzen mit einer Abtastrate von 44 KHz in etwa 75 Millisekunden erzeugen können, also praktisch in Echtzeit.

Schon vor rund einem Jahr hatte Stability AI mit Stable Audio Open ein kostenloses KI-Modell mit 1,1 Milliarden Parametern veröffentlicht, das aus Textbeschreibungen Sound-Schnipsel generieren kann.

Die Small-Variante kommt mit 341 Millionen Parametern aus und ist damit auf weniger leistungsstarker Hardware lauffähig. Die Zusammenarbeit von Arm und Stability AI hatten die Unternehmen bereits im März angekündigt.

Anzeige
Anzeige

Optimierung für mobile Geräte

Um das System auf Smartphones lauffähig zu machen, haben die Entwickler:innen die Architektur des Modells grundlegend überarbeitet. Das Ergebnis ist ein dreiteiliges System: Ein Autoencoder komprimiert zunächst die Audiodaten, ein Embedding-System verarbeitet die Textbefehle und ein spezielles Diffusionsmodell erzeugt daraus die Audiodateien.

Durch diese optimierte Struktur ohne Destillation konnte der Speicherverbrauch von 6,5 auf 3,6 Gigabyte reduziert werden. Dies ermöglicht erstmals den Einsatz solcher KI-Modelle auf Smartphones und anderen mobilen Geräten. Für die Tests nutzen die Forschenden ein Vivo X200 Pro, ein im Herbst 2024 vorgestelltes Android-Flaggschiff mit 12 GB RAM und Mediatek Dimensity 9400 als System-on-a-Chip.

Fokus auf Soundeffekte

Nach Angaben von Stability AI eignet sich das Modell besonders gut für die Generierung von Soundeffekten und Feldaufnahmen. Bei der Erzeugung von Musik gebe es noch Einschränkungen. Insbesondere könne das System keine realistischen Gesangsstimmen erzeugen, auch funktioniere es nur mit englischsprachigen Beschreibungen optimal.

Das Training erfolgte mit rund 472.000 Audioaufnahmen aus der kostenlosen Audio-Datenbank Freesound, die unter CC0-, CC-BY- oder CC-Sampling+-Lizenzen stehen. Um urheberrechtlich geschützte Inhalte auszuschließen, wurden die Trainingsdaten vorab durch verschiedene Prüfverfahren gefiltert.

Die Software ist als Open Source unter der Stability AI Community License verfügbar. Für kommerzielle Nutzung gelten gesonderte Lizenzbedingungen. Der Quellcode ist auf GitHub veröffentlicht, die Modellgewichte sind über Hugging Face zugänglich.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Stability AI und Arm haben ein KI-Modell für Smartphones entwickelt, das Stereo-Audiodateien von bis zu elf Sekunden Länge in etwa sieben Sekunden erzeugen kann.
  • Das neue Modell "Stable Audio Open Small" nutzt 341 Millionen Parameter und benötigt nur 3,6 Gigabyte Speicher. Tests erfolgten auf einem Vivo X200 Pro Smartphone mit 12 GB RAM.
  • Das System wurde mit 472.000 lizenzfreien Audioaufnahmen trainiert und eignet sich besonders für Soundeffekte, hat aber noch Einschränkungen bei Musik und Gesangsstimmen. Der Code ist als Open Source auf GitHub verfügbar.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!