Inhalt
newsletter Newsletter

Hinter den Animations- und Sprachfähigkeiten von Nvidias neuen Omniverse Avataren steckt jede Menge KI-Technik.

Anzeige

Omniverse ist das Industrie-Metaverse von Nvidia: Digitale Zwillinge von Maschinen bis zu ganzen Werksgelände, geteilte virtuelle Welten für Remote-Zusammenarbeit und KI-generierte Inhalte und Analysen spielen hier eine große Rolle.

"Mit dem Omniverse haben wir jetzt die Technologie, um neue 3D-Welten zu schaffen oder unsere physische Welt zu modellieren", sagt Nvidia-Chef Jensen Huang.

Auf der hauseigenen KI-Konferenz GTC 2021 stellte Nvidia jetzt eine Avatar-Plattform fürs Omniverse vor, das digitale Charaktere realistisch (und unrealistisch) animieren und sprechen lassen kann.

Anzeige
Anzeige

Omniverse Avtar: Nvidia-Chef als Spielfigur

Mit Omniverse Avatar sollen Entwickler:innen interaktive Charaktere erstellen können, die "sehen, sprechen, sich über eine breite Palette von Themen unterhalten und natürlich gesprochene Absichten verstehen können", erklärt das Unternehmen. Das folgende Video zeigt einen Spielfigur-Avatar von Huang, der fließend auf Fragen innerhalb einer ausgewählten Domäne antwortet.

Dem Avatar-System liegt Nvidias Cloud-KI-Modell Maxine zugrunde, das unter anderem auf GA-Netze für die Generierung von Animationen setzt. Für das Sprachverständnis verwendet Nvidia das KI-Modell Megatron-Turing NLG 530B, die Sprachgenerierung übernimmt das ebenfalls neu vorgestellte Riva-Modell für individuelle Stimmen. 30 Minuten Audiodaten sollen Riva Custom Voice für einen überzeugenden Stimmklon ausreichen.

In der Praxis könnte so ein Avatar etwa die automatische Bestellannahme in einem Restaurant übernehmen, wie das folgende Beispiel von Nvidia zeigt. Der Avatar benutzt dabei Gesichtserkennungstechnologie (Nvidia Metropolis Vision), um Augenkontakt mit den sprechenden Personen zu halten und auf ihre Mimik zu reagieren.

Die Omniverse-Avatare haben laut Huang derzeit eine Reaktionszeit von rund zwei Sekunden. Eine wirklich fließende Unterhaltung mit einem KI-System ist also noch ein gutes Stück entfernt – und bei zweisekündigen Wartepausen scheint auch der Mehrwert als Bestellservice überschaubar im Vergleich zu einer direkten Auswahl etwa per Touch-Interface.

Laut Nvidia könnte die KI-Technik auch in Call Centern eingesetzt werden oder als Assistenzsystem in autonomen Vehikeln. "Diese Technologie wird für den intelligenten Einzelhandel, Drive-Throughs und den Kundenservice nützlich sein", sagt Huang. Das Empfehlungssystem basiert auf Nvidia Merlin.

Empfehlung

Maxine: Echtzeit-Übersetzung und -Animation synchron in mehrere Sprachen

Eine weitere neue Demo der Maxine-KI zeigt eine Frau, die in einer lauten Umgebung an einer Videokonferenz teilnimmt. Mit der Cloud-KI kann Nvidia gleichzeitig den Hintergrundlärm entfernen, ihre Worte in Echtzeit in mehrere Sprachen übersetzen und die Lippenbewegungen ihres Omniverse Avatars passend zur gesprochenen Sprache animieren und als stark komprimiertes Video streamen.

Laut Nvidia wurde das Omniverse-Angebot bislang 70.000 Mal heruntergeladen und wird oder wurde in 500 Unternehmen eingesetzt. Der Preis für die verschiedenen Services startet ab 9.000 US-Dollar pro Jahr.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Weiterlesen über Nvidia:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!