Resemble Enhance verbessert Audioaufnahmen kostenlos

DALL-E 3 prompted by THE DECODER

Resemble Enhance ist ein Open-Source-KI-Modell, das die Qualität von Audioaufnahmen erheblich verbessern kann.

Das Start-up Resemble AI bietet verschiedene KI-Tools für Audio an, die beispielsweise das Klonen, Mischen oder Übersetzen von Stimmen ermöglichen. Zu den kostenpflichtigen Funktionen gehören beispielsweise Text-to-Speech, Speech-to-Speech, Emotionskontrolle und Echtzeit-Sprachtransformation mit Kontrolle von Tonfall und Intonation. Einige der Technologien des Unternehmens nutzte der Tech-YouTuber Linus Sebastian bereits in 2020 für einen Deepfake-Test.

Nun hat das Unternehmen mit Resemble Enhance ein KI-Modell veröffentlicht, das verrauschte Audiodaten in klare Sprache umwandelt. Im Gegensatz zu anderen Modellen des Unternehmens ist Resemble Enhance Open Source.

Resemble AI soll Podcasts und historische Aufnahmen verbessern können

Resemble sieht Anwendungsbereiche für die Technologie in Bereichen wie Podcasting, der allgemeinen Unterhaltungsindustrie oder der Restaurierung historischer Audiodokumente. Wie sich das anhört, zeigt das Unternehmen in einem Beispiel einer alten Vorlesung.

Video: Resemble AI

Das Modell besteht aus zwei Hauptkomponenten: einem Denoiser und einem Enhancer. Der Denoiser verwendet ein UNet-Modell, um Sprache von Hintergrundgeräuschen zu trennen und so die Verständlichkeit zu verbessern. Der Enhancer verwendet ein Latent Conditional Flow Matching (CFM) Modell, um Audioverzerrungen zu korrigieren und die Audiobandbreite zu erweitern.

Das Entwicklerteam will Resemble Enhance weiter verbessern und plant beispielsweise, die Verarbeitungszeiten zu optimieren und die Kontrolle über einzelne Elemente der Sprache zu erweitern, um die Audioqualität weiter zu verbessern. Langfristig soll das Modell so in der Lage sein, auch Audioaufnahmen zu verbessern, die über 75 Jahre alt sind.

Resemble bietet auf HuggingFace eine Demo von Resemble Enhance an. Den Code gibt es auf GitHub.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Resemble Enhance verbessert Audioaufnahmen kostenlos

Resemble AI soll Podcasts und historische Aufnahmen verbessern können

KI-Stimmen lernen flüstern und lachen: Elevenlabs stellt Eleven v3 vor

OpenAI veröffentlicht realistische KI-Stimmen in der API

Sesame veröffentlicht KI-Stimmengenerator CSM-1B als Open Source

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Resemble Enhance verbessert Audioaufnahmen kostenlos

Resemble AI soll Podcasts und historische Aufnahmen verbessern können

KI-Stimmen lernen flüstern und lachen: Elevenlabs stellt Eleven v3 vor

OpenAI veröffentlicht realistische KI-Stimmen in der API

Sesame veröffentlicht KI-Stimmengenerator CSM-1B als Open Source