Stability AI hat Stable Audio 2.5 vorgestellt, nach eigenen Angaben das erste Audio-Generierungsmodell, das speziell für professionelle Sound-Produktion in Unternehmen entwickelt wurde. Mit dem Modell sollen Kreativteams hochwertige, anpassbare Audioinhalte in großem Maßstab erstellen.
Das Modell soll verbesserte musikalische Strukturen generieren können, einschließlich mehrteiliger Kompositionen mit Intro, Entwicklung und Outro. Laut Stability AI reagiert Stable Audio 2.5 auch besser auf Stimmungsbeschreibungen wie "uplifting" und musikalische Fachsprache verschiedener Genres wie "üppige Synthesizer".
Stable Audio 2.5 kann laut Stability AI Musikstücke von bis zu drei Minuten Länge in wenigen Sekunden generieren. Die Verarbeitungszeit betrage weniger als zwei Sekunden auf industriellen Nvidia-H100-GPUs.
Diese Geschwindigkeit erreiche das Modell durch eine spezielle Nachtrainingsmethode namens Adversarial Relativistic-Contrastive (ARC) von Stabilitys Forschungsteam entwickelt wurde. Im Mai hatte Stability AI bereits zusammen mit Arm eine kompakte Version ihrer Audio-KI für Smartphones vorgestellt. Das Modell Stable Audio Open Small nutzt dieselbe ARC-Trainingsmethode und kann auf mobilen Geräten bis zu elf Sekunden lange Stereo-Audiodateien in etwa sieben Sekunden generieren.
Neue Funktion ermöglicht Audio-Bearbeitung
Eine zentrale Neuerung ist das sogenannte Audio Inpainting, einer Technik, bei der Nutzer:innen eigene Audiodateien hochladen, einen Startpunkt wählen können und das KI-Modell den Rest des Tracks basierend auf dem vorhandenen Kontext generiert. Dies ermöglicht es, bestehende Audioaufnahmen nahtlos zu erweitern oder zu vervollständigen. Daneben kann Stable Audio 2.5 auch normal Audio aus Text generieren.
Laut den Nutzungsbedingungen müssen alle hochgeladenen Dateien frei von urheberrechtlich geschütztem Material sein. Stability AI nutzt nach eigenen Angaben fortgeschrittene Erkennungssysteme, um die Einhaltung der Urheberrechtsbestimmungen zu gewährleisten. Wie alle Stable-Audio-Modelle sei auch Version 2.5 generell kommerziell sicher und mit einem vollständig lizenzierten Datensatz trainiert worden, so Stability AI.
Von Kaufhausmusik bis Kreditkarten-Sounds
Stability AI sieht Anwendungsmöglichkeiten in verschiedenen Bereichen: von Werbespots über Spieleintros und Kaufhausmusik bis zu charakteristischen Tönen für Kreditkarten-Transaktionen oder Auto-Stereo-Systeme. Unternehmen könnten so eine konsistente Audio-Identität über alle Berührungspunkte mit Kunden hinweg schaffen.
Das Audio-Research-Team von Stability AI kann die Stable-Audio-Modelle auf die bestehenden Sound-Bibliotheken von Organisationen anpassen. Dabei werden die charakteristischen Audio-Eigenschaften einer Marke in die KI-Arbeitsabläufe eingebettet, um eine einzigartige Wiedererkennung zu gewährleisten.
Stability AI kooperiert mit der Sound-Branding-Agentur Amp, einem Unternehmen der Werbegruppe WPP, um spezialisierte Lösungen für Großkunden zu entwickeln. Stable Audio 2.5 soll über die Plattform WPP Open der globalen Kundenbasis von WPP zur Verfügung stehen und fortgeschrittene Technologie mit kreativer Expertise verbinden.
Davor hatte Stability AI bereits im April 2024 Stable Audio 2 vorgestellt, das ebenfalls dreiminütige Musikstücke in Studioqualität generieren konnte. Die Vorgängerversion bot bereits Audio-to-Audio-Funktionen und Style-Transfer-Möglichkeiten.
Nachdem Stability AI vor wenigen Jahren noch zur technischen Speerspitze generativer KI vor allem im visuellen Bereich gehörte, hat sich das britische KI-Unternehmen offenbar in Richtung Audio umorientiert und geht verstärkt Partnerschaften ein; wahrscheinlich, um einer Pleite zu entgehen. Zuletzt hat der WPP-Konzern im März eine unbekannte Summe in das Unternehmen investiert. Auch Meta hat kürzlich seine Audio-Bestrebungen verstärkt.