Mit dem Audiocraft Framework veröffentlicht Meta drei KI-Werkzeuge für die Musik- und Audiogenerierung zu Forschungszwecken.
Audiocraft besteht aus Metas MusicGen, einem im Juni 2023 vorgestellten KI-Modell zur Generierung von Melodien und Musikstücken aus Text und anderer Musik. Ebenfalls Teil von Audiocraft ist AudioGen, ein im Oktober 2022 vorgestelltes Transformer-basiertes generatives KI-Modell, das Klänge passend zu Texteingaben von Grund auf neu erzeugen oder bestehende Audiodateien erweitern kann.
Metas Audio-Tokenizer EnCodec, der Audiodateien für die KI-Verarbeitung in kleinere Bestandteile zerlegt, gehört auch zum Audiocraft-Framework. Der Tokenizer ist laut Meta in einer verbesserten Version verfügbar, die Musik in höherer Qualität mit weniger Artefakten erzeugt.
Baukasten für KI-Audio-Experimente
Laut Meta kann die Audiocraft-Modellfamilie qualitativ hochwertiges, konsistentes und längeres Audio allein durch Sprachinteraktion erzeugen. Mit der Veröffentlichung erhalten Interessierte vollen Zugang zu Metas Forschungsarbeit der letzten Jahre. Für Forschungszwecke können die veröffentlichten Modelle angepasst und erweitert werden.
"Die Möglichkeiten sind nahezu unbegrenzt, sobald man den Menschen Zugang zu den Modellen gibt, um sie an ihre Bedürfnisse anzupassen", schreibt Meta.
Mit Audiocraft stünden etwa Musikern oder Sounddesignern professionelle Werkzeuge für schnellere Inspiration, Brainstorming oder die Weiterentwicklung bestehender Kompositionen zur Verfügung.
MusicGen-Beispiel: Earthy tones, environmentally conscious, ukulele-infused, harmonic, breezy, easygoing, organic instrumentation, gentle grooves
Audiogen-Beispiel: Whistling with wind blowing
Generatives Audio soll Einstiegshürden senken
Das Meta-Forschungsteam arbeitet weiter an generativem Audio, insbesondere an qualitativ hochwertigem Audio auf Basis von Diffusionsmodellen, also jenen Modellen, die in der Bildgenerierung einen enormen Qualitätsgewinn gebracht haben.
Ziel sei es etwa, Musikern die Möglichkeit zu geben, neue Kompositionen zu schaffen, ohne auch nur einen Ton auf einem Instrument angeschlagen zu haben, oder Indie-Entwicklern mit kleinem Budget zu helfen, virtuelle Welten mit glaubwürdigen und abwechslungsreichen Soundeffekten zu füllen. Für Instagram könnte generative Audio-KI den passenden Soundtrack für Beiträge liefern. Da die kommerzielle Nutzung bei Audiocraft aber noch nicht erlaubt ist, wird daraus vorerst nichts.
Im Zuge der Veröffentlichung spielt Meta erneut die Open-Source-Karte: "Verantwortungsvolle Innovation kann nicht im stillen Kämmerlein stattfinden. Die Veröffentlichung der Forschung und der daraus resultierenden Modelle stellt sicher, dass alle den gleichen Zugang haben."
Der Code von Audiocraft ist hier verfügbar.