Inhalt
newsletter Newsletter

Googles neueste KI-Verbesserung für die Videoplattform Duo könnte qualitativ gute Videotelefonie mit einem 56 Kbit/s-Modem ermöglichen.

Im April 2020 stellte Google eine Künstliche Intelligenz vor, die die Audioqualität in der eigenen Videotelefonie-App Duo verbessern sollte. Laut Google kann die WaveNetEQ genannte Lösung bis zu 120 Millisekunden lange Audiolücken im Sprechtext auffüllen, ohne dass es auffällt. Das verhindert beispielsweise technisch bedingtes Stottern während eines Telefonats.

Knapp ein Jahr später rollt Google jetzt die nächste KI-Verbesserung für Duo aus: „Lyra“ soll brauchbare Audioqualität und Verlässlichkeit bei sehr geringen Bandbreiten bis zu 3 Kbit/s sicherstellen.

Das Problem: Bei sehr niedrigen Bandbreiten laufen gängige Audio-Codecs mit geringen Bitraten. Das führt zu roboterhaft klingenden und somit schwer verständlichen Stimmen. Lyra kombiniert traditionelle Codecs mit Künstlicher Intelligenz, um dieses Problem zu lösen.

Anzeige
Anzeige

Aus dem Audio-Input des Mikrofons werden alle 40ms Sprachattribute extrahiert und für die Übertragung komprimiert. Google nutzt dafür sogenannte Log-Mel-Spektrogramme. Die extrahierten Sprachattribute werden dann an ein neuronales Netz weitergeleitet, das daraus gesprochene Sprache generiert, die klingt wie die Originalstimme des Sprechers.

Lyra läuft in Echtzeit auf Smartphones

Das neuronale Netz ähnelt Deepminds WaveNet, das Basis für WaveNetEQ ist. WaveNet benötigt allerdings hohe Bitraten. Google setzt für Lyra daher auf eine WaveRNN genannte Alternative, die mit niedrigen Bitraten funktioniert.

WaveRNN generiert parallel mehrere Signale in unterschiedlichen Frequenzen und kombiniert diese anschließend zu einem einzelnen Output mit der gewünschten Abtastrate. Dadurch könne Lyra auch auf Smartphones in Echtzeit laufen, schreibt Google.

Trainiert wurde Googles WaveRNN mit tausenden Stunden von Sprachdaten in über 70 Sprachen. Nach dem Training kann die KI aus den Spektrogrammen gesprochene Sprache generieren, die (ähnlich) wie die unkomprimierte Stimme des Sprechers klingt - nur eben bei viel geringerem Datenverbrauch.

Deutliche Audioverbesserung dank KI

Lyra soll ab einer Bitrate von 3 Kbit/s übernehmen und klingt im direkten Vergleich mit Alternativ-Codecs wie Opus oder Speex deutlich besser. Sogar bei Hintergrundgeräuschen schlägt sich die KI-Audioaufbereitung sehr gut.

Empfehlung

Stille Umgebung

Original

Opus@6Kbit/s

Lyra@3Kbit/s

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Speex@3Kbit/s

Mit Umgebungsgeräuschen

Original

Opus@6Kbit/s

Lyra@3Kbit/s

Speex@3Kbit/s

Zusammen mit modernen Video-Kompressions-Technologien wie AV1 könnte Lyra Videotelefonie mit einem 56 Kbit/s-Modem ermöglichen, schreibt Google.

In Zukunft soll Lyra noch besser werden und etwa von KI-Chips in Smartphones profitieren. Die verwendete Technologie wolle man nutzen, um auf einen generellen Audio-Codec für sehr niedrige Bitraten hinzuarbeiten. Der könnte etwa Musikstreaming und andere Audioanwendungen mit schlechter Verbindung ermöglichen.

Via: Google

Weiterlesen über Künstliche Intelligenz:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!