Inhalt
summary Zusammenfassung

Microsoft hat einen neuen Datensatz vorgestellt, der die Entwicklung von interaktiven KI-Assistenten für alltägliche Aufgaben in der realen Welt unterstützen soll.

Umfangreicher Datensatz mit Egocentric-Videos

Laut den beteiligten Forscher:innen Xin Wang und Neel Joshi von Microsoft handelt es sich bei dem Datensatz namens "HoloAssist" um den ersten seiner Art, der Egocentric-Videos von Menschen bei der Durchführung physischer Aufgaben enthält sowie die dazugehörigen Anweisungen eines menschlichen Tutors.

Insgesamt umfasst der Datensatz laut Blogbeitrag mehr als 160 Stunden an Videoaufnahmen mit sieben verschiedenen Sensor-Streams, die dabei helfen sollen, menschliche Absichten und Aktionen zu verstehen. Dabei wurden unter anderem Augenbewegung, Position von Hand und Kopf und Stimme berücksichtigt.

Möbel aufbauen, Scanner bedienen

222 Teilnehmende führten dabei 20 verschiedene Aufgaben wie das Zusammenbauen von Möbeln durch und erhielten von einem Tutor Anweisungen, während sie das Mixed-Reality-Headset Hololens 2 trugen. Die Aufgaben reichen vom Zusammenbau einfacher Möbel bis hin zur Bedienung von Kaffeemaschinen oder Laserscannern.

Anzeige
Anzeige
Bild: Microsoft

Laut den Microsoft-Forscher:innen ist dieses Szenario ideal, um KI-Assistenten zu entwickeln, die proaktiv agieren und präzise Anweisungen zur richtigen Zeit geben können. Bisherige KI-Assistenten seien noch zu stark auf die digitale Welt beschränkt und könnten Menschen nicht ausreichend bei Aufgaben in der realen Welt unterstützen, da ihnen die notwendigen Erfahrungen und Trainingsdaten fehlten, so die Forschenden.

Die größte Herausforderung besteht darin, dass den aktuellen KI-Assistenten die Erfahrung mit der realen Welt fehlt. Daher können sie den Zustand der realen Welt nicht wahrnehmen und bei Bedarf aktiv eingreifen. Diese Einschränkung ergibt sich aus der mangelnden Ausbildung in Bezug auf die spezifischen Daten, die für die Wahrnehmung, die Schlussfolgerungen und die Modellierung in solchen Szenarien erforderlich sind. Bei der Entwicklung von KI gilt das Sprichwort "Daten sind König". Diese Herausforderung ist keine Ausnahme.

Microsoft im Blog-Beitrag

HoloAssist soll hier Abhilfe schaffen. Der Datensatz soll der wissenschaftlichen Community zur Verfügung gestellt werden, um weitere Experimente anzustoßen. So könnten zukünftig KI-Systeme entwickelt werden, die Menschen im Alltag besser unterstützen, so das Ziel der Microsoft-Forschenden.

Den vollständigen Code sowie das mehr als einen Terabyte umfassende Trainingsmaterial hat Microsoft auf GitHub kostenfrei hochgeladen.

Meta stellte 2021 mehr als 2.200 Stunden Videomaterial aus der Ego-Perspektive zur Verfügung. Der Datensatz mit dem Namen "Ego4D" soll auch für die Entwicklung von KI-Assistenzsystemen im Zusammenspiel mit AR-Geräten genutzt werden. 2022 folgten sieben Stunden Ego-Videomaterial im "Project Aria Pilot Dataset". Die Videos wurden mit einer speziellen Videobrille gedreht, die als Prototyp für künftige AR-Brillen dient.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft hat HoloAssistvorgestellt, den ersten Datensatz seiner Art mit Egocentric-Videos zur Unterstützung der Entwicklung von KI-Assistenten, die Menschen bei alltäglichen Aufgaben unterstützen.
  • Der Datensatz enthält mehr als 160 Stunden an Videoaufnahmen und sieben verschiedene Sensorstreams, während 222 Teilnehmer 20 verschiedene Aufgaben unter Anleitung eines menschlichen Tutors durchführten.
  • Der Datensatz soll der wissenschaftlichen Community zur Verfügung gestellt werden und zur Entwicklung von KI-Systemen beitragen, die Menschen im Alltag besser unterstützen können. Der vollständige Code und das Trainingsmaterial sind auf GitHub verfügbar.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!