Nvidia: Neues KI-Modell für bessere Videokonferenzen

25. Juni 2021

Wegen der Corona-Pandemie entwickeln und verbreiten sich Videokonferenzen in hohem Tempo. Aber Telepräsenz-Technik steht noch ganz am Anfang. Geht es nach Nvidia, dann wird Künstliche Intelligenz die Videoübertragung auf ein neues Level bringen.

Seit einigen Wochen sind vielerorts die Corona-Regeln etwas gelockert: Menschen treffen sich wieder für die Zusammenarbeit und begegnen sich direkt in Büros oder auf Events. Bei mir selbst spürte ich bei meinen ersten Vor-Ort-Treffen einen interessanten Effekt: Ein kleiner Teil meines Gehirns erwartete ständig einen Ton- oder Bildfehler oder dass ich anderen Personen im Raum ins Wort falle, weil ich die Verzögerung bei der Tonübertragung nicht richtig abgeschätzt habe.

Videokonferenz-Alltag eben, wie wir ihn kennen, und der aus vielen Gründen praktisch ist, der sich aber (noch) nicht mit der latenzfreien Direktheit, dem Augenkontakt und den vielen weiteren Eindrücken bei der klassischen Bild- und Videoübertragung vor Ort messen kann.

Telepräsenz-Technik steht noch am Anfang

Warum erzähle ich das? Weil ich denke, dass diese Lücke zwischen digitaler und realer Kommunikation vielleicht nicht geschlossen, aber zumindest deutlich kleiner werden kann und muss.

Dafür braucht es meines Erachtens nicht mal eine VR-Brille mit realistischen Facebook-Avataren oder Googles Highend-Holo-Kapseln: Es würde schon reichen, die bestehenden Möglichkeiten bei Audio- und Videoqualität auszureizen und das möglichst flächendeckend.

Da weder Privatpersonen noch Unternehmen im großen Stil in teures Highend-AV-Equipment investieren werden - und da auch das Internet längst nicht überall die nötigen Bandbreitenanforderungen für die Übertragung erfüllt - brauchen wir für dieses Ziel Software-Innovationen.

Genau das versucht Nvidia mit der im letzten Oktober vorgestellten Cloud-Videokonferenz-KI Maxine: Nvidia macht sich insbesondere das generative Potenzial der Deepfake-GAN-Technologie zunutze, um etwa die Blickrichtung von Videokonferenzteilnehmern so zu justieren, dass der Eindruck eines Blickkontakts entsteht, auch wenn alle auf den Bildschirm statt in die Kamera schauen. Dafür kann sogar das gesamte Gesicht rein digital um einige Grad gedreht werden.

Nvidia vid2vid-cameo: KI soll mit Software-Tricks Videokonferenzen verbessern

Jetzt stellt Nvidia auf der Fachkonferenz "Computer Vision und Mustererkennung" eines der KI-Modelle hinter Maxine vor: das GAN-basierte vid2vid-cameo. Die Besonderheit: Für die Adaption der eigenen generativen Fähigkeiten auf das spezifische Gesicht einer einzelnen Person benötigt vid2vid-cameo nur ein einziges Beispielfoto.

Die KI-Anpassung klappt mit einem realen Porträtfoto ebenso wie mit einem Cartoon-Bild. Laut Nvidia ermöglicht das den Videokonferenzteilnehmern einen ordentlichen Auftritt, auch wenn sie in Wirklichkeit mit "zerzausten Haaren und Pyjamas" vor der Kamera sitzen.

Wichtiger als diese kosmetischen Anpassungen ist die KI-Rekonstruktion eines nur teilweise gesendeten Videobilds auf Empfängerseite. Laut Nvidia kann vid2vid-cameo den Datenverbrauch für ein qualitativ hochwertiges Bild so um den Faktor zehn reduzieren und dabei Ruckler und Latenz vermeiden. Die Technik soll bald in Nvidias Video Codec SDK integriert werden.

Eine Demo für vid2vid-cameo ist hinter dem Link verfügbar, das Forschungspapier gibt es hier. Das folgende Video erklärt die verschiedenen Funktionen von vid2vid-cameo.

Neue KI-gestützte Übertragungstechnik

Trainiert wurde vid2vid-cameo laut Nvidia selbstüberwacht (Erklärung), also ohne menschliche Daten-Dokumentation vorab, mit 180.000 hochwertigen Videos sprechender Personen. Das Modell lernte anhand dieser Beispiele, 20 Schlüsselpunkte in den Gesichtern wie Augen, Mund und Nase zu identifizieren und zu animieren.

Live-Videostreams mit aktivem vid2vid-cameo übertragen dann nur die Veränderungen der Datenpunkte anstatt das volle Videobild. Ein GAN-Netz beim Empfänger rekonstruiert mit diesen Datenpunkten lokal ein Bild der anderen Person, was die Grundlage ist für die Echtzeit-KI-Anpassungen bei gleichzeitig stark reduziertem Datenverbrauch. Wie viele Datenpunkte analysiert und übertragen werden, kann je Bandbreite konfiguriert werden.

Quelle: Nvidia | Titelbild: Nvidia

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren