Zum 10-jährigen Jubiläum des Fundamental AI Research (FAIR) Teams von Meta stellt das Unternehmen drei neue Forschungsprojekte vor: Ego-Exo4D, Seamless Communication und Audiobox.
Ego-Exo4D ist ein Datensatz und Benchmarkset zur Unterstützung der KI-Forschung im Bereich des Video-Lernens und der multimodalen Wahrnehmung. Ego-Exo4D wurde über einen Zeitraum von zwei Jahren von Metas FAIR, Project Aria und 15 Universitätspartnern aus der ganzen Welt gesammelt und erfasst sowohl "egozentrische" Ansichten aus der Kamera eines Teilnehmers, der die Project Aria-Brille trägt, als auch "exozentrische" Ansichten aus den Kameras der Umgebung.
Der Datensatz konzentriert sich auf komplexe menschliche Aktivitäten wie Sport, Musik, Kochen, Tanzen und Fahrradreparaturen.
Meta sieht Anwendungen in Augmented Reality (AR) Systemen, z.B. könnte eine Person, die eine intelligente Brille trägt, mithilfe eines virtuellen KI-Trainers, der sie durch ein Anleitungsvideo führt, schnell neue Fertigkeiten erlernen; beim Lernen von Robotern könnte ein Roboter, der Menschen in seiner Umgebung beobachtet, mit weniger physischer Erfahrung neue Handhabungsfertigkeiten erlernen; oder in sozialen Netzwerken könnten neue Gemeinschaften entstehen, die darauf basieren, dass Menschen ihr Wissen und ihre komplementären Fähigkeiten in Videos teilen.
Der Datensatz mit über 1.400 Stunden Videomaterial wird im Dezember als Open Source verfügbar sein, und für nächstes Jahr ist ein öffentlicher Benchmark-Wettbewerb für Ego-Exo4D geplant.
Seamless Communication soll ausdrucksstarke und schnelle KI-Übersetzung ermöglichen
Nachdem das Meta-Projekt Seamless Communication bereits im August das multimodale Übersetzungsmodell SeamlessM4T vorgestellt hat, präsentiert FAIR nun eine Familie von KI-Forschungsmodellen, die auf dem alten Modell aufbauen und eine natürlichere und authentischere Kommunikation über Sprachgrenzen hinweg ermöglichen sollen.
Das Projekt besteht aus vier Modellen:
- SeamlessExpressive: Bewahrt Ausdruck und Nuancen der Sprache über Sprachgrenzen hinweg.
- SeamlessStreaming: Liefert Sprach- und Textübersetzungen mit einer Latenz von etwa zwei Sekunden.
- SeamlessM4T v2: Ein mehrsprachiges und multitasking-fähiges Modell für mühelose Kommunikation durch Sprache und Text.
- Seamless: Vereint die Fähigkeiten von SeamlessExpressive, SeamlessStreaming und SeamlessM4T v2 in einem Modell.
Meta veröffentlicht auch eine Demo von SeamlessExpressive, mit der Interessierte ihre Stimme übersetzen lassen können.
Audiobox ist ein generatives KI-Modell für Audio
Audiobox ist Metas neues Modell zur Generierung von Audio. Es ist in der Lage, Stimmen und Soundeffekte durch eine Kombination von Spracheingabe und natürlichsprachlichen Textprompts zu erzeugen, was die Erstellung von benutzerdefinierten Audiodateien für verschiedene Anwendungsfälle erleichtern soll.
Im Vergleich zu seinem direkten Vorgänger, Voicebox, bietet Audiobox eine verbesserte Kontrollierbarkeit, da die Benutzer natürlichsprachliche Prompts verwenden können, um einen gewünschten Klang oder eine bestimmte Art von Sprache zu erzeugen.
Das Modell wird zunächst einer ausgewählten Gruppe von Forschern und akademischen Einrichtungen zur Verfügung gestellt, um den Stand der Technik in der Forschung zur Audiogenerierung voranzutreiben und eine verantwortungsvolle Entwicklung von künstlicher Intelligenz zu gewährleisten.