AudioCraft: Meta veröffentlicht Modellbaukasten für KI-Audio

Midjourney prompted by THE DECODER

Mit dem Audiocraft Framework veröffentlicht Meta drei KI-Werkzeuge für die Musik- und Audiogenerierung zu Forschungszwecken.

Audiocraft besteht aus Metas MusicGen, einem im Juni 2023 vorgestellten KI-Modell zur Generierung von Melodien und Musikstücken aus Text und anderer Musik. Ebenfalls Teil von Audiocraft ist AudioGen, ein im Oktober 2022 vorgestelltes Transformer-basiertes generatives KI-Modell, das Klänge passend zu Texteingaben von Grund auf neu erzeugen oder bestehende Audiodateien erweitern kann.

Metas Audio-Tokenizer EnCodec, der Audiodateien für die KI-Verarbeitung in kleinere Bestandteile zerlegt, gehört auch zum Audiocraft-Framework. Der Tokenizer ist laut Meta in einer verbesserten Version verfügbar, die Musik in höherer Qualität mit weniger Artefakten erzeugt.

Baukasten für KI-Audio-Experimente

Laut Meta kann die Audiocraft-Modellfamilie qualitativ hochwertiges, konsistentes und längeres Audio allein durch Sprachinteraktion erzeugen. Mit der Veröffentlichung erhalten Interessierte vollen Zugang zu Metas Forschungsarbeit der letzten Jahre. Für Forschungszwecke können die veröffentlichten Modelle angepasst und erweitert werden.

"Die Möglichkeiten sind nahezu unbegrenzt, sobald man den Menschen Zugang zu den Modellen gibt, um sie an ihre Bedürfnisse anzupassen", schreibt Meta.

Mit Audiocraft stünden etwa Musikern oder Sounddesignern professionelle Werkzeuge für schnellere Inspiration, Brainstorming oder die Weiterentwicklung bestehender Kompositionen zur Verfügung.

MusicGen-Beispiel: Earthy tones, environmentally conscious, ukulele-infused, harmonic, breezy, easygoing, organic instrumentation, gentle grooves

Audiogen-Beispiel: Whistling with wind blowing

Generatives Audio soll Einstiegshürden senken

Das Meta-Forschungsteam arbeitet weiter an generativem Audio, insbesondere an qualitativ hochwertigem Audio auf Basis von Diffusionsmodellen, also jenen Modellen, die in der Bildgenerierung einen enormen Qualitätsgewinn gebracht haben.

Empfehlung

KI in der Praxis

OpenAIs neues KI-Modell "Orion" zeigt angeblich kaum Verbesserungen gegenüber GPT-4

Ziel sei es etwa, Musikern die Möglichkeit zu geben, neue Kompositionen zu schaffen, ohne auch nur einen Ton auf einem Instrument angeschlagen zu haben, oder Indie-Entwicklern mit kleinem Budget zu helfen, virtuelle Welten mit glaubwürdigen und abwechslungsreichen Soundeffekten zu füllen. Für Instagram könnte generative Audio-KI den passenden Soundtrack für Beiträge liefern. Da die kommerzielle Nutzung bei Audiocraft aber noch nicht erlaubt ist, wird daraus vorerst nichts.

Im Zuge der Veröffentlichung spielt Meta erneut die Open-Source-Karte: "Verantwortungsvolle Innovation kann nicht im stillen Kämmerlein stattfinden. Die Veröffentlichung der Forschung und der daraus resultierenden Modelle stellt sicher, dass alle den gleichen Zugang haben."

Der Code von Audiocraft ist hier verfügbar.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

AudioCraft: Meta veröffentlicht Modellbaukasten für KI-Audio

Baukasten für KI-Audio-Experimente

Generatives Audio soll Einstiegshürden senken

OpenAIs neues KI-Modell "Orion" zeigt angeblich kaum Verbesserungen gegenüber GPT-4

Salesforce will die Verkehrsleitung im Agenten-Zeitalter übernehmen

OpenAI verschärft Sicherheitsmaßnahmen zum Schutz vor Modell-Diebstahl

Auch Apple verliert Spitzenkraft für KI-Modelle an Meta

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

AudioCraft: Meta veröffentlicht Modellbaukasten für KI-Audio

Baukasten für KI-Audio-Experimente

Generatives Audio soll Einstiegshürden senken

Artikel teilen

Bankverbindung