Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Komprimieren und mit KI rekonstruieren: Meta Encodec kann Audio-Dateien bei gleicher Qualität deutlich stärker komprimieren als MP3.

Meta bezeichnet Encodec als "AI-powered hypercompression" für Audio-Dateien. Das dreistufige System komprimiert Audio zunächs tauf eine vorgegebene Zielgröße und rekonstruiert dann die Waveform. Alle Prozesse passieren in Echtzeit auf einem einzigen CPU-Kern.

  1. Der Encoder wandelt Rohdaten in höhere Dimensionen und niedrigere Bildrate um.
  2. Der Quantisierer komprimiert auf die vorgegebene Zielgröße auf MP3-Niveau.
  3. Der Decoder wandelt das komprimierte Signal wieder in eine Wellenform um, die dem Original am ähnlichsten ist

Der Schlüssel beim Decoder sei es, jene Änderungen zu identifizieren, die vom Menschen nicht wahrgenommen werden können, da eine "eine perfekte Rekonstruktion bei niedrigen Bitraten unmöglich" sei.

Der Aufbau von Encodec. | Bild: Meta AI

Meta setzt beim Decoding auf den von GA-Netzen bekannten Diskriminator-Ansatz: Das Kompressionsmodell erzeugt Samples, die von einem Diskriminator als echt oder rekonstruiert bewertet werden. Erkennt der Diskriminator das Samples als rekonstruiert, verändert das Kompressionsmodell seinen Output, bis der Diskriminator das Ergebnis für echt hält. So ergibt sich laut Meta ein "Katz-und-Maus-Spiel", das die Audioqualität nach oben treibt.

Anzeige
Anzeige

KI schlägt handgeschriebenen Code

Laut Meta erreichen klassische, von Menschen geschriebene Codecs für die Kodierung und Dekodierung wie MP3, Opus und EVS "wahrscheinlich ihr Limit". Endodec hingegen könne Audio mit niedriger Bitrate (64 kb/s) ohne Qualitätsverlust rekonstruieren und habe Potenzial für weitere Verbesserungen.

Bild: Meta AI

Wir erreichen eine etwa 10-fache Komprimierungsrate im Vergleich zu MP3 bei 64 kbps, ohne Qualitätsverluste. Während solche Techniken bereits für Sprache erforscht wurden, sind wir die ersten, die sie für 48 kHz abgetastetes Stereo-Audio (d.h. CD-Qualität) einsetzen, was der Standard für den Musikvertrieb ist.

Das Forschungsteam trainierte ergänzend einen kleines, Transformer-basiertes Sprachmodell mit dem Ziel, die Ende-zu-Ende-Komprimierung und -Dekomprimierung schneller als in Echtzeit auf einem einzelnen CPU-Kern laufen zu lassen. Der Einsatz des Transformers könne bei gleichbleibender Qualität weitere 40 Prozent Bandbreite einsparen, wenn die Latenz wie beim Musik-Streaming nicht entscheidend sei, schreiben die Forschenden.

Bei der menschlichen Bewertung der Audioqualität verschiedener Komprimierungsmethoden, darunter Googles Lyra-v2, schnitt Encodec am besten ab, hier insbesondere die Transformer-basierte Variante.

Bild: Meta AI

Meta AI hält noch stärkere KI-Komprimierung für möglich

Mit der zunehmenden Verbreitung von HD-Musik- und Videostreaming-Diensten für mobile Endgeräte gewinne die Relevanz effizienter Kompression, schreiben die Forschenden. KI-Komprimierung hat laut des Forschungsteam die Limits noch nicht erreicht. Zudem könnten Chips in Smartphones oder Notebooks darauf optimiert werden, die Komprimierung und Dekomprimierung von Dateien bei geringerem Stromverbrauch zu unterstützen.

Encodec-Musik-Komprimierung im Vergleich zu EVS und Opus. | Video: Meta AI

Empfehlung

Zukünftig will Meta die Komprimierung von Spatial Audio für VR und AR erforschen, bei der mehrere Audiokanäle komprimiert und dabei räumliche Informationen beibehalten werden müssen. Im Sommer stellte Meta bereits ein Open Source KI-Modell für die Erzeugung von Raumklang für AR und VR vor. Meta will mit KI in einem kommenden Forschungsvorhaben auch Video komprimieren.

Den Encodec-Code stellt Meta bei Github zur Verfügung.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Encodec von Meta ist ein Deep-Learning-Kompressionsverfahren für Audiodateien.
  • Laut Meta erreicht Encodec bei 64 kb/s die zehnfache Komprimierungsrate (6 kb/s) im Vergleich zu MP3 bei gleicher Qualität.
  • Das Verfahren läuft in Echtzeit auf einem einzelnen CPU-Kern.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!