Inhalt
summary Zusammenfassung

Resemble Enhance ist ein Open-Source-KI-Modell, das die Qualität von Audioaufnahmen erheblich verbessern kann.

Das Start-up Resemble AI bietet verschiedene KI-Tools für Audio an, die beispielsweise das Klonen, Mischen oder Übersetzen von Stimmen ermöglichen. Zu den kostenpflichtigen Funktionen gehören beispielsweise Text-to-Speech, Speech-to-Speech, Emotionskontrolle und Echtzeit-Sprachtransformation mit Kontrolle von Tonfall und Intonation. Einige der Technologien des Unternehmens nutzte der Tech-YouTuber Linus Sebastian bereits in 2020 für einen Deepfake-Test.

Nun hat das Unternehmen mit Resemble Enhance ein KI-Modell veröffentlicht, das verrauschte Audiodaten in klare Sprache umwandelt. Im Gegensatz zu anderen Modellen des Unternehmens ist Resemble Enhance Open Source.

Resemble AI soll Podcasts und historische Aufnahmen verbessern können

Resemble sieht Anwendungsbereiche für die Technologie in Bereichen wie Podcasting, der allgemeinen Unterhaltungsindustrie oder der Restaurierung historischer Audiodokumente. Wie sich das anhört, zeigt das Unternehmen in einem Beispiel einer alten Vorlesung.

Anzeige
Anzeige

Video: Resemble AI

Das Modell besteht aus zwei Hauptkomponenten: einem Denoiser und einem Enhancer. Der Denoiser verwendet ein UNet-Modell, um Sprache von Hintergrundgeräuschen zu trennen und so die Verständlichkeit zu verbessern. Der Enhancer verwendet ein Latent Conditional Flow Matching (CFM) Modell, um Audioverzerrungen zu korrigieren und die Audiobandbreite zu erweitern.

Das Entwicklerteam will Resemble Enhance weiter verbessern und plant beispielsweise, die Verarbeitungszeiten zu optimieren und die Kontrolle über einzelne Elemente der Sprache zu erweitern, um die Audioqualität weiter zu verbessern. Langfristig soll das Modell so in der Lage sein, auch Audioaufnahmen zu verbessern, die über 75 Jahre alt sind.

Resemble bietet auf HuggingFace eine Demo von Resemble Enhance an. Den Code gibt es auf GitHub.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Resemble AI hat ein Open-Source-KI-Modell namens Resemble Enhance veröffentlicht, das die Qualität von Audioaufnahmen verbessert, indem es verrauschte Audiodaten in klare Sprache umwandelt.
  • Das Modell besteht aus zwei Hauptkomponenten: einem Denoiser, der Sprache von Hintergrundgeräuschen trennt, und einem Enhancer, der Audioverzerrungen korrigiert und die Audiobandbreite erweitert.
  • Resemble sieht Anwendungsbereiche für diese Technologie in Podcasting, der Unterhaltungsindustrie und der Restaurierung historischer Audiodokumente, und plant, die Audioqualität und Verarbeitungszeiten weiter zu verbessern.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!