Inhalt
summary Zusammenfassung

Meta hat eine neue Familie von KI-Modellen namens "Sapiens" vorgestellt, die sich auf die Analyse von Bildern mit Menschen spezialisieren.

Anzeige

Die Modelle wurden mit einem Datensatz von 300 Millionen menschlichen Bildern vortrainiert und können verschiedene Aufgaben wie 2D-Posenschätzung, Körpersegmentierung, Tiefenschätzung und Oberflächennormalschätzung ausführen. Bei letzterer wird für jeden Punkt eines Bildes die Orientierung der Oberfläche im dreidimensionalen Raum bestimmt. Diese Information ist wichtig für das Verständnis der 3D-Struktur von Objekten und Personen im Bild und spielt eine wichtige Rolle für die realistische Beleuchtung in 3D-Rekonstruktionen.

Laut Meta übertreffen die Sapiens-Modelle bestehende Ansätze bei diesen Aufgaben deutlich. Bei der Körpersegmentierung, bei der einzelne Körperteile in Bildern identifiziert werden, erzielt das Sapiens-2B-Modell etwa eine Verbesserung von mehr als 17 Prozentpunkten gegenüber früheren Methoden.

Video: Meta

Anzeige
Anzeige

Die Forscher betonen, dass die Leistung der Modelle mit ihrer Größe zunimmt: Das größte Modell, Sapiens-2B, verfügt über 2 Milliarden Parameter und wurde nativ mit einer Bildauflösung von 1024 mal 1024 Pixeln trainiert. Dies ermöglicht laut Meta eine detailliertere Analyse als bei herkömmlichen Modellen mit niedrigerer Auflösung.

Sapiens-Modelle könnten bessere Datensätze ermöglichen

Als Schlüsselfaktor für die Leistung der Sapiens-Modelle sehen die Forscher das Vortraining auf dem großen, kuratierten Datensatz von Menschenbildern. Diese führe zu einer besseren Generalisierung auf reale Szenarien als ein Training auf allgemeinen Bilddaten, wie es sonst üblich ist. Ein Beispiel für ein solches System ist Metas Segment Anything 2.

Trotz der besseren Leistung gibt es laut dem Team aber immer noch Probleme bei komplexen Posen, Menschenmengen und starken Verdeckungen. Die Sapiens-Modelle könnten auch als Werkzeug dienen, um große Mengen realer Daten zu annotieren und so die nächste Generation menschenzentrierter Bildanalysesysteme zu entwickeln.

Meta stellt die Sapiens-Modelle der Forschungsgemeinschaft auf GitHub zur Verfügung.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta hat eine neue Familie von KI-Modellen namens "Sapiens" vorgestellt, die sich auf die Analyse von Bildern mit Menschen spezialisieren. Die Modelle wurden mit 300 Millionen menschlichen Bildern vortrainiert und können Aufgaben wie 2D-Posenschätzung und Körpersegmentierung ausführen.
  • Das größte Modell, Sapiens-2B, verfügt über 2 Milliarden Parameter und wurde mit einer Bildauflösung von 1024 mal 1024 Pixeln trainiert. Bei der Körpersegmentierung erzielt es eine Verbesserung von mehr als 17 Prozentpunkten gegenüber früheren Methoden.
  • Laut den Forschern könnte Sapiens als Werkzeug dienen, um große Mengen realer Daten zu annotieren und so die nächste Generation menschenzentrierter Bildanalysesysteme zu entwickeln. Meta stellt die Modelle der Forschungsgemeinschaft auf GitHub zur Verfügung.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!