Inhalt
summary Zusammenfassung

Stability AI hat Stable Audio 2.5 vorgestellt, nach eigenen Angaben das erste Audio-Generierungsmodell, das speziell für professionelle Sound-Produktion in Unternehmen entwickelt wurde. Mit dem Modell sollen Kreativteams hochwertige, anpassbare Audioinhalte in großem Maßstab erstellen.

Anzeige

Das Modell soll verbesserte musikalische Strukturen generieren können, einschließlich mehrteiliger Kompositionen mit Intro, Entwicklung und Outro. Laut Stability AI reagiert Stable Audio 2.5 auch besser auf Stimmungsbeschreibungen wie "uplifting" und musikalische Fachsprache verschiedener Genres wie "üppige Synthesizer".

Stable Audio 2.5 kann laut Stability AI Musikstücke von bis zu drei Minuten Länge in wenigen Sekunden generieren. Die Verarbeitungszeit betrage weniger als zwei Sekunden auf industriellen Nvidia-H100-GPUs.

Diese Geschwindigkeit erreiche das Modell durch eine spezielle Nachtrainingsmethode namens Adversarial Relativistic-Contrastive (ARC) von Stabilitys Forschungsteam entwickelt wurde. Im Mai hatte Stability AI bereits zusammen mit Arm eine kompakte Version ihrer Audio-KI für Smartphones vorgestellt. Das Modell Stable Audio Open Small nutzt dieselbe ARC-Trainingsmethode und kann auf mobilen Geräten bis zu elf Sekunden lange Stereo-Audiodateien in etwa sieben Sekunden generieren.

Anzeige
Anzeige

Neue Funktion ermöglicht Audio-Bearbeitung

Eine zentrale Neuerung ist das sogenannte Audio Inpainting, einer Technik, bei der Nutzer:innen eigene Audiodateien hochladen, einen Startpunkt wählen können und das KI-Modell den Rest des Tracks basierend auf dem vorhandenen Kontext generiert. Dies ermöglicht es, bestehende Audioaufnahmen nahtlos zu erweitern oder zu vervollständigen. Daneben kann Stable Audio 2.5 auch normal Audio aus Text generieren.

Laut den Nutzungsbedingungen müssen alle hochgeladenen Dateien frei von urheberrechtlich geschütztem Material sein. Stability AI nutzt nach eigenen Angaben fortgeschrittene Erkennungssysteme, um die Einhaltung der Urheberrechtsbestimmungen zu gewährleisten. Wie alle Stable-Audio-Modelle sei auch Version 2.5 generell kommerziell sicher und mit einem vollständig lizenzierten Datensatz trainiert worden, so Stability AI.

Von Kaufhausmusik bis Kreditkarten-Sounds

Stability AI sieht Anwendungsmöglichkeiten in verschiedenen Bereichen: von Werbespots über Spieleintros und Kaufhausmusik bis zu charakteristischen Tönen für Kreditkarten-Transaktionen oder Auto-Stereo-Systeme. Unternehmen könnten so eine konsistente Audio-Identität über alle Berührungspunkte mit Kunden hinweg schaffen.

Das Audio-Research-Team von Stability AI kann die Stable-Audio-Modelle auf die bestehenden Sound-Bibliotheken von Organisationen anpassen. Dabei werden die charakteristischen Audio-Eigenschaften einer Marke in die KI-Arbeitsabläufe eingebettet, um eine einzigartige Wiedererkennung zu gewährleisten.

Stability AI kooperiert mit der Sound-Branding-Agentur Amp, einem Unternehmen der Werbegruppe WPP, um spezialisierte Lösungen für Großkunden zu entwickeln. Stable Audio 2.5 soll über die Plattform WPP Open der globalen Kundenbasis von WPP zur Verfügung stehen und fortgeschrittene Technologie mit kreativer Expertise verbinden.

Empfehlung

Davor hatte Stability AI bereits im April 2024 Stable Audio 2 vorgestellt, das ebenfalls dreiminütige Musikstücke in Studioqualität generieren konnte. Die Vorgängerversion bot bereits Audio-to-Audio-Funktionen und Style-Transfer-Möglichkeiten.

Nachdem Stability AI vor wenigen Jahren noch zur technischen Speerspitze generativer KI vor allem im visuellen Bereich gehörte, hat sich das britische KI-Unternehmen offenbar in Richtung Audio umorientiert und geht verstärkt Partnerschaften ein; wahrscheinlich, um einer Pleite zu entgehen. Zuletzt hat der WPP-Konzern im März eine unbekannte Summe in das Unternehmen investiert. Auch Meta hat kürzlich seine Audio-Bestrebungen verstärkt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Stability AI hat mit Stable Audio 2.5 ein neues KI-Modell vorgestellt, das speziell für die professionelle Audio-Produktion in Unternehmen entwickelt wurde und unter anderem durch das sogenannte Audio Inpainting bestehende Audiodateien nahtlos erweitern oder vervollständigen kann.
  • Das Modell erzeugt in wenigen Sekunden Musikstücke von bis zu drei Minuten Länge und verwendet zur Beschleunigung der Generierung eine spezielle Nachtrainingsmethode namens Adversarial Relativistic-Contrastive (ARC).
  • Stable Audio 2.5 ist laut Stability AI kommerziell sicher, arbeitet mit lizenzierten Daten und wird in Zusammenarbeit mit der Sound-Branding-Agentur Amp über die Plattform WPP Open globalen Unternehmenskunden angeboten.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!