Resemble Enhance ist ein Open-Source-KI-Modell, das die Qualität von Audioaufnahmen erheblich verbessern kann.
Das Start-up Resemble AI bietet verschiedene KI-Tools für Audio an, die beispielsweise das Klonen, Mischen oder Übersetzen von Stimmen ermöglichen. Zu den kostenpflichtigen Funktionen gehören beispielsweise Text-to-Speech, Speech-to-Speech, Emotionskontrolle und Echtzeit-Sprachtransformation mit Kontrolle von Tonfall und Intonation. Einige der Technologien des Unternehmens nutzte der Tech-YouTuber Linus Sebastian bereits in 2020 für einen Deepfake-Test.
Nun hat das Unternehmen mit Resemble Enhance ein KI-Modell veröffentlicht, das verrauschte Audiodaten in klare Sprache umwandelt. Im Gegensatz zu anderen Modellen des Unternehmens ist Resemble Enhance Open Source.
Resemble AI soll Podcasts und historische Aufnahmen verbessern können
Resemble sieht Anwendungsbereiche für die Technologie in Bereichen wie Podcasting, der allgemeinen Unterhaltungsindustrie oder der Restaurierung historischer Audiodokumente. Wie sich das anhört, zeigt das Unternehmen in einem Beispiel einer alten Vorlesung.
Das Modell besteht aus zwei Hauptkomponenten: einem Denoiser und einem Enhancer. Der Denoiser verwendet ein UNet-Modell, um Sprache von Hintergrundgeräuschen zu trennen und so die Verständlichkeit zu verbessern. Der Enhancer verwendet ein Latent Conditional Flow Matching (CFM) Modell, um Audioverzerrungen zu korrigieren und die Audiobandbreite zu erweitern.
Das Entwicklerteam will Resemble Enhance weiter verbessern und plant beispielsweise, die Verarbeitungszeiten zu optimieren und die Kontrolle über einzelne Elemente der Sprache zu erweitern, um die Audioqualität weiter zu verbessern. Langfristig soll das Modell so in der Lage sein, auch Audioaufnahmen zu verbessern, die über 75 Jahre alt sind.
Resemble bietet auf HuggingFace eine Demo von Resemble Enhance an. Den Code gibt es auf GitHub.