Komprimieren und mit KI rekonstruieren: Meta Encodec kann Audio-Dateien bei gleicher Qualität deutlich stärker komprimieren als MP3.
Meta bezeichnet Encodec als "AI-powered hypercompression" für Audio-Dateien. Das dreistufige System komprimiert Audio zunächs tauf eine vorgegebene Zielgröße und rekonstruiert dann die Waveform. Alle Prozesse passieren in Echtzeit auf einem einzigen CPU-Kern.
- Der Encoder wandelt Rohdaten in höhere Dimensionen und niedrigere Bildrate um.
- Der Quantisierer komprimiert auf die vorgegebene Zielgröße auf MP3-Niveau.
- Der Decoder wandelt das komprimierte Signal wieder in eine Wellenform um, die dem Original am ähnlichsten ist
Der Schlüssel beim Decoder sei es, jene Änderungen zu identifizieren, die vom Menschen nicht wahrgenommen werden können, da eine "eine perfekte Rekonstruktion bei niedrigen Bitraten unmöglich" sei.
Meta setzt beim Decoding auf den von GA-Netzen bekannten Diskriminator-Ansatz: Das Kompressionsmodell erzeugt Samples, die von einem Diskriminator als echt oder rekonstruiert bewertet werden. Erkennt der Diskriminator das Samples als rekonstruiert, verändert das Kompressionsmodell seinen Output, bis der Diskriminator das Ergebnis für echt hält. So ergibt sich laut Meta ein "Katz-und-Maus-Spiel", das die Audioqualität nach oben treibt.
KI schlägt handgeschriebenen Code
Laut Meta erreichen klassische, von Menschen geschriebene Codecs für die Kodierung und Dekodierung wie MP3, Opus und EVS "wahrscheinlich ihr Limit". Endodec hingegen könne Audio mit niedriger Bitrate (64 kb/s) ohne Qualitätsverlust rekonstruieren und habe Potenzial für weitere Verbesserungen.
Wir erreichen eine etwa 10-fache Komprimierungsrate im Vergleich zu MP3 bei 64 kbps, ohne Qualitätsverluste. Während solche Techniken bereits für Sprache erforscht wurden, sind wir die ersten, die sie für 48 kHz abgetastetes Stereo-Audio (d.h. CD-Qualität) einsetzen, was der Standard für den Musikvertrieb ist.
Das Forschungsteam trainierte ergänzend einen kleines, Transformer-basiertes Sprachmodell mit dem Ziel, die Ende-zu-Ende-Komprimierung und -Dekomprimierung schneller als in Echtzeit auf einem einzelnen CPU-Kern laufen zu lassen. Der Einsatz des Transformers könne bei gleichbleibender Qualität weitere 40 Prozent Bandbreite einsparen, wenn die Latenz wie beim Musik-Streaming nicht entscheidend sei, schreiben die Forschenden.
Bei der menschlichen Bewertung der Audioqualität verschiedener Komprimierungsmethoden, darunter Googles Lyra-v2, schnitt Encodec am besten ab, hier insbesondere die Transformer-basierte Variante.
Meta AI hält noch stärkere KI-Komprimierung für möglich
Mit der zunehmenden Verbreitung von HD-Musik- und Videostreaming-Diensten für mobile Endgeräte gewinne die Relevanz effizienter Kompression, schreiben die Forschenden. KI-Komprimierung hat laut des Forschungsteam die Limits noch nicht erreicht. Zudem könnten Chips in Smartphones oder Notebooks darauf optimiert werden, die Komprimierung und Dekomprimierung von Dateien bei geringerem Stromverbrauch zu unterstützen.
Zukünftig will Meta die Komprimierung von Spatial Audio für VR und AR erforschen, bei der mehrere Audiokanäle komprimiert und dabei räumliche Informationen beibehalten werden müssen. Im Sommer stellte Meta bereits ein Open Source KI-Modell für die Erzeugung von Raumklang für AR und VR vor. Meta will mit KI in einem kommenden Forschungsvorhaben auch Video komprimieren.
Den Encodec-Code stellt Meta bei Github zur Verfügung.