Stability AI und Arm haben gemeinsam das generative Audio-Modell Stable Audio Open für Smartphones optimiert. Dort erstellt es Soundeffekte und Audio-Samples in Sekundenschnelle ohne Internetverbindung.
Laut Stability AI nutzt die Lösung die KleidiAI-Bibliotheken von Arm, um die Leistung des Modells auf Smartphone-CPUs zu optimieren. Dadurch wird eine Erzeugung von Soundeffekten, Audio-Samples und Produktionselementen in Echtzeit direkt auf dem Gerät und ohne Internetverbindung möglich.
30-fache Beschleunigung durch Destillation
Die Optimierung von Stable Audio Open für mobile Geräte stellte laut Stability AI zunächst eine große Herausforderung dar. Anfangs dauerte die Audio-Generierung auf einer Arm-CPU noch 240 Sekunden.
Durch die Destillation des Modells und den Einsatz des Software-Stacks von Arm konnten Stability AI und Arm die Generierungszeit für einen 11-Sekunden-Clip auf Armv9-CPUs auf unter 8 Sekunden reduzieren. Das entspricht einer 30-fachen Beschleunigung. Genauere Informationen zu den technischen Hintergründen lässt Stability im Blogpost aus, ein Paper fehlt bislang.
Da das Modell nun vollständig auf Arm-CPUs läuft, ist es ohne hohe Hardware-Anforderungen für jeden verfügbar, der über ein kompatibles mobiles Gerät verfügt.
Weitere KI-Modelle für Smartphones geplant
Audio ist für Stability AI nur der Anfang. Das Unternehmen plant, alle seine fortschrittlichen Modelle für Bild-, Video- und 3D-Generierung auf Edge-Geräte zu bringen.
Die Partnerschaft mit Arm sei ein wichtiger Schritt, um hochwertige Mediengenerierung direkt auf Mobilgeräten über alle visuellen Medienmodalitäten hinweg zu ermöglichen und so die Art und Weise zu verändern, wie visuelle Medien erstellt werden.
Stability AI das quelloffene Stable Audio Open bereits im Sommer 2024 für die Generierung von Audiosamples, Soundeffekten und Produktionselementen vorgestellt. Das Modell ermöglicht die Erstellung von bis zu 47 Sekunden langen Audiodaten aus Textbeschreibungen.
Es ist speziell auf Anwendungen wie Drumbeats, Instrumentalriffs, Umgebungsgeräusche und Foley-Aufnahmen für die Musikproduktion und das Sounddesign ausgerichtet. Im Gegensatz zur kommerziellen Version Stable Audio 2 ist Stable Audio Open jedoch auf kürzere Samples spezialisiert und weniger für die Generierung kompletter Songs wie kommerzielle Dienste wie Suno geeignet.
Neue Richtung für Stability AI?
Das Londoner Start-up Stability AI hatte zuletzt mit finanziellen Schwierigkeiten und Mitarbeiterabgängen zu kämpfen, seit Juni 2024 steht ein neuer CEO an der Spitze.
Hatte das Unternehmen anfangs noch in hoher Frequenz vor allem neue Bild-Modelle in der Stable-Diffusion-Reihe veröffentlicht, könnte der Fokus auf mobil ausführbare Modelle einen Richtungswechsel bedeuten.