Resemble Enhance verbessert Audioaufnahmen kostenlos
Kurz & Knapp
- Resemble AI hat ein Open-Source-KI-Modell namens Resemble Enhance veröffentlicht, das die Qualität von Audioaufnahmen verbessert, indem es verrauschte Audiodaten in klare Sprache umwandelt.
- Das Modell besteht aus zwei Hauptkomponenten: einem Denoiser, der Sprache von Hintergrundgeräuschen trennt, und einem Enhancer, der Audioverzerrungen korrigiert und die Audiobandbreite erweitert.
- Resemble sieht Anwendungsbereiche für diese Technologie in Podcasting, der Unterhaltungsindustrie und der Restaurierung historischer Audiodokumente, und plant, die Audioqualität und Verarbeitungszeiten weiter zu verbessern.
Resemble Enhance ist ein Open-Source-KI-Modell, das die Qualität von Audioaufnahmen erheblich verbessern kann.
Das Start-up Resemble AI bietet verschiedene KI-Tools für Audio an, die beispielsweise das Klonen, Mischen oder Übersetzen von Stimmen ermöglichen. Zu den kostenpflichtigen Funktionen gehören beispielsweise Text-to-Speech, Speech-to-Speech, Emotionskontrolle und Echtzeit-Sprachtransformation mit Kontrolle von Tonfall und Intonation. Einige der Technologien des Unternehmens nutzte der Tech-YouTuber Linus Sebastian bereits in 2020 für einen Deepfake-Test.
Nun hat das Unternehmen mit Resemble Enhance ein KI-Modell veröffentlicht, das verrauschte Audiodaten in klare Sprache umwandelt. Im Gegensatz zu anderen Modellen des Unternehmens ist Resemble Enhance Open Source.
Resemble AI soll Podcasts und historische Aufnahmen verbessern können
Resemble sieht Anwendungsbereiche für die Technologie in Bereichen wie Podcasting, der allgemeinen Unterhaltungsindustrie oder der Restaurierung historischer Audiodokumente. Wie sich das anhört, zeigt das Unternehmen in einem Beispiel einer alten Vorlesung.
Video: Resemble AI
Das Modell besteht aus zwei Hauptkomponenten: einem Denoiser und einem Enhancer. Der Denoiser verwendet ein UNet-Modell, um Sprache von Hintergrundgeräuschen zu trennen und so die Verständlichkeit zu verbessern. Der Enhancer verwendet ein Latent Conditional Flow Matching (CFM) Modell, um Audioverzerrungen zu korrigieren und die Audiobandbreite zu erweitern.
Das Entwicklerteam will Resemble Enhance weiter verbessern und plant beispielsweise, die Verarbeitungszeiten zu optimieren und die Kontrolle über einzelne Elemente der Sprache zu erweitern, um die Audioqualität weiter zu verbessern. Langfristig soll das Modell so in der Lage sein, auch Audioaufnahmen zu verbessern, die über 75 Jahre alt sind.
Resemble bietet auf HuggingFace eine Demo von Resemble Enhance an. Den Code gibt es auf GitHub.
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.