Inhalt
summary Zusammenfassung

Zum 10-jährigen Jubiläum des Fundamental AI Research (FAIR) Teams von Meta stellt das Unternehmen drei neue Forschungsprojekte vor: Ego-Exo4D, Seamless Communication und Audiobox.

Anzeige

Ego-Exo4D ist ein Datensatz und Benchmarkset zur Unterstützung der KI-Forschung im Bereich des Video-Lernens und der multimodalen Wahrnehmung. Ego-Exo4D wurde über einen Zeitraum von zwei Jahren von Metas FAIR, Project Aria und 15 Universitätspartnern aus der ganzen Welt gesammelt und erfasst sowohl "egozentrische" Ansichten aus der Kamera eines Teilnehmers, der die Project Aria-Brille trägt, als auch "exozentrische" Ansichten aus den Kameras der Umgebung.

Der Datensatz konzentriert sich auf komplexe menschliche Aktivitäten wie Sport, Musik, Kochen, Tanzen und Fahrradreparaturen.

Video: Meta

Anzeige
Anzeige

Meta sieht Anwendungen in Augmented Reality (AR) Systemen, z.B. könnte eine Person, die eine intelligente Brille trägt, mithilfe eines virtuellen KI-Trainers, der sie durch ein Anleitungsvideo führt, schnell neue Fertigkeiten erlernen; beim Lernen von Robotern könnte ein Roboter, der Menschen in seiner Umgebung beobachtet, mit weniger physischer Erfahrung neue Handhabungsfertigkeiten erlernen; oder in sozialen Netzwerken könnten neue Gemeinschaften entstehen, die darauf basieren, dass Menschen ihr Wissen und ihre komplementären Fähigkeiten in Videos teilen.

Der Datensatz mit über 1.400 Stunden Videomaterial wird im Dezember als Open Source verfügbar sein, und für nächstes Jahr ist ein öffentlicher Benchmark-Wettbewerb für Ego-Exo4D geplant.

Seamless Communication soll ausdrucksstarke und schnelle KI-Übersetzung ermöglichen

Nachdem das Meta-Projekt Seamless Communication bereits im August das multimodale Übersetzungsmodell SeamlessM4T vorgestellt hat, präsentiert FAIR nun eine Familie von KI-Forschungsmodellen, die auf dem alten Modell aufbauen und eine natürlichere und authentischere Kommunikation über Sprachgrenzen hinweg ermöglichen sollen.

Das Projekt besteht aus vier Modellen:

- SeamlessExpressive: Bewahrt Ausdruck und Nuancen der Sprache über Sprachgrenzen hinweg.
- SeamlessStreaming: Liefert Sprach- und Textübersetzungen mit einer Latenz von etwa zwei Sekunden.
- SeamlessM4T v2: Ein mehrsprachiges und multitasking-fähiges Modell für mühelose Kommunikation durch Sprache und Text.
- Seamless: Vereint die Fähigkeiten von SeamlessExpressive, SeamlessStreaming und SeamlessM4T v2 in einem Modell.

Empfehlung

Video: Meta

Meta veröffentlicht auch eine Demo von SeamlessExpressive, mit der Interessierte ihre Stimme übersetzen lassen können.

Audiobox ist ein generatives KI-Modell für Audio

Audiobox ist Metas neues Modell zur Generierung von Audio. Es ist in der Lage, Stimmen und Soundeffekte durch eine Kombination von Spracheingabe und natürlichsprachlichen Textprompts zu erzeugen, was die Erstellung von benutzerdefinierten Audiodateien für verschiedene Anwendungsfälle erleichtern soll.

Im Vergleich zu seinem direkten Vorgänger, Voicebox, bietet Audiobox eine verbesserte Kontrollierbarkeit, da die Benutzer natürlichsprachliche Prompts verwenden können, um einen gewünschten Klang oder eine bestimmte Art von Sprache zu erzeugen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Video: Meta

Das Modell wird zunächst einer ausgewählten Gruppe von Forschern und akademischen Einrichtungen zur Verfügung gestellt, um den Stand der Technik in der Forschung zur Audiogenerierung voranzutreiben und eine verantwortungsvolle Entwicklung von künstlicher Intelligenz zu gewährleisten.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta stellt drei neue KI-Forschungsprojekte vor: Ego-Exo4D, ein Datensatz zur Unterstützung von Video-Lern- und multimodaler Wahrnehmungsforschung; Seamless Communication, eine Familie von KI-Modellen zur Verbesserung der natürlichen und authentischen Kommunikation über Sprachgrenzen hinweg; und Audiobox, ein generatives KI-Modell zur Erstellung von Stimmen und Soundeffekten.
  • Ego-Exo4D konzentriert sich auf komplexe menschliche Aktivitäten und hat Anwendungen in Augmented Reality, Robotik und sozialen Netzwerken. Der Datensatz wird im Dezember als Open Source verfügbar sein, und ein Benchmark-Wettbewerb ist für nächstes Jahr geplant.
  • Seamless Communication besteht aus vier Modellen, die Ausdruck, Nuancen und schnelle Übersetzungen über Sprachgrenzen hinweg ermöglichen, während Audiobox es Benutzern ermöglicht, benutzerdefinierte Audiodateien mit natürlichsprachlichen Textprompts zu erstellen.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!