Meta Encodec komprimiert Audio bis zu 10 Mal stärker als MP3

Komprimieren und mit KI rekonstruieren: Meta Encodec kann Audio-Dateien bei gleicher Qualität deutlich stärker komprimieren als MP3.

Meta bezeichnet Encodec als "AI-powered hypercompression" für Audio-Dateien. Das dreistufige System komprimiert Audio zunächs tauf eine vorgegebene Zielgröße und rekonstruiert dann die Waveform. Alle Prozesse passieren in Echtzeit auf einem einzigen CPU-Kern.

Der Encoder wandelt Rohdaten in höhere Dimensionen und niedrigere Bildrate um.
Der Quantisierer komprimiert auf die vorgegebene Zielgröße auf MP3-Niveau.
Der Decoder wandelt das komprimierte Signal wieder in eine Wellenform um, die dem Original am ähnlichsten ist

Der Schlüssel beim Decoder sei es, jene Änderungen zu identifizieren, die vom Menschen nicht wahrgenommen werden können, da eine "eine perfekte Rekonstruktion bei niedrigen Bitraten unmöglich" sei.

Meta setzt beim Decoding auf den von GA-Netzen bekannten Diskriminator-Ansatz: Das Kompressionsmodell erzeugt Samples, die von einem Diskriminator als echt oder rekonstruiert bewertet werden. Erkennt der Diskriminator das Samples als rekonstruiert, verändert das Kompressionsmodell seinen Output, bis der Diskriminator das Ergebnis für echt hält. So ergibt sich laut Meta ein "Katz-und-Maus-Spiel", das die Audioqualität nach oben treibt.

KI schlägt handgeschriebenen Code

Laut Meta erreichen klassische, von Menschen geschriebene Codecs für die Kodierung und Dekodierung wie MP3, Opus und EVS "wahrscheinlich ihr Limit". Endodec hingegen könne Audio mit niedriger Bitrate (64 kb/s) ohne Qualitätsverlust rekonstruieren und habe Potenzial für weitere Verbesserungen.

Wir erreichen eine etwa 10-fache Komprimierungsrate im Vergleich zu MP3 bei 64 kbps, ohne Qualitätsverluste. Während solche Techniken bereits für Sprache erforscht wurden, sind wir die ersten, die sie für 48 kHz abgetastetes Stereo-Audio (d.h. CD-Qualität) einsetzen, was der Standard für den Musikvertrieb ist.

Das Forschungsteam trainierte ergänzend einen kleines, Transformer-basiertes Sprachmodell mit dem Ziel, die Ende-zu-Ende-Komprimierung und -Dekomprimierung schneller als in Echtzeit auf einem einzelnen CPU-Kern laufen zu lassen. Der Einsatz des Transformers könne bei gleichbleibender Qualität weitere 40 Prozent Bandbreite einsparen, wenn die Latenz wie beim Musik-Streaming nicht entscheidend sei, schreiben die Forschenden.

Bei der menschlichen Bewertung der Audioqualität verschiedener Komprimierungsmethoden, darunter Googles Lyra-v2, schnitt Encodec am besten ab, hier insbesondere die Transformer-basierte Variante.

Meta AI hält noch stärkere KI-Komprimierung für möglich

Mit der zunehmenden Verbreitung von HD-Musik- und Videostreaming-Diensten für mobile Endgeräte gewinne die Relevanz effizienter Kompression, schreiben die Forschenden. KI-Komprimierung hat laut des Forschungsteam die Limits noch nicht erreicht. Zudem könnten Chips in Smartphones oder Notebooks darauf optimiert werden, die Komprimierung und Dekomprimierung von Dateien bei geringerem Stromverbrauch zu unterstützen.

Encodec-Musik-Komprimierung im Vergleich zu EVS und Opus. | Video: Meta AI

Empfehlung

KI-Forschung

Forscher zweifeln an "Reasoning"-Modellen: Effizienter ja, intelligenter nein

Zukünftig will Meta die Komprimierung von Spatial Audio für VR und AR erforschen, bei der mehrere Audiokanäle komprimiert und dabei räumliche Informationen beibehalten werden müssen. Im Sommer stellte Meta bereits ein Open Source KI-Modell für die Erzeugung von Raumklang für AR und VR vor. Meta will mit KI in einem kommenden Forschungsvorhaben auch Video komprimieren.

Den Encodec-Code stellt Meta bei Github zur Verfügung.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Meta Encodec komprimiert Audio bis zu 10 Mal stärker als MP3

KI schlägt handgeschriebenen Code

Meta AI hält noch stärkere KI-Komprimierung für möglich

Forscher zweifeln an "Reasoning"-Modellen: Effizienter ja, intelligenter nein

Meta plant proaktive KI-Bots für mehr Nutzerbindung

Meta bietet Top-OpenAI-Forschern angeblich bis zu 300 Millionen US-Dollar über vier Jahre

Meta erwägte Abkehr von eigenem KI-Modell zugunsten externer Systeme

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Meta Encodec komprimiert Audio bis zu 10 Mal stärker als MP3

KI schlägt handgeschriebenen Code

Meta AI hält noch stärkere KI-Komprimierung für möglich

Artikel teilen

Bankverbindung