Meta stellt KI-Modelle für menschenzentrierte Bildanalyse vor

Meta hat eine neue Familie von KI-Modellen namens "Sapiens" vorgestellt, die sich auf die Analyse von Bildern mit Menschen spezialisieren.

Die Modelle wurden mit einem Datensatz von 300 Millionen menschlichen Bildern vortrainiert und können verschiedene Aufgaben wie 2D-Posenschätzung, Körpersegmentierung, Tiefenschätzung und Oberflächennormalschätzung ausführen. Bei letzterer wird für jeden Punkt eines Bildes die Orientierung der Oberfläche im dreidimensionalen Raum bestimmt. Diese Information ist wichtig für das Verständnis der 3D-Struktur von Objekten und Personen im Bild und spielt eine wichtige Rolle für die realistische Beleuchtung in 3D-Rekonstruktionen.

Laut Meta übertreffen die Sapiens-Modelle bestehende Ansätze bei diesen Aufgaben deutlich. Bei der Körpersegmentierung, bei der einzelne Körperteile in Bildern identifiziert werden, erzielt das Sapiens-2B-Modell etwa eine Verbesserung von mehr als 17 Prozentpunkten gegenüber früheren Methoden.

Video: Meta

Die Forscher betonen, dass die Leistung der Modelle mit ihrer Größe zunimmt: Das größte Modell, Sapiens-2B, verfügt über 2 Milliarden Parameter und wurde nativ mit einer Bildauflösung von 1024 mal 1024 Pixeln trainiert. Dies ermöglicht laut Meta eine detailliertere Analyse als bei herkömmlichen Modellen mit niedrigerer Auflösung.

Sapiens-Modelle könnten bessere Datensätze ermöglichen

Als Schlüsselfaktor für die Leistung der Sapiens-Modelle sehen die Forscher das Vortraining auf dem großen, kuratierten Datensatz von Menschenbildern. Diese führe zu einer besseren Generalisierung auf reale Szenarien als ein Training auf allgemeinen Bilddaten, wie es sonst üblich ist. Ein Beispiel für ein solches System ist Metas Segment Anything 2.

Trotz der besseren Leistung gibt es laut dem Team aber immer noch Probleme bei komplexen Posen, Menschenmengen und starken Verdeckungen. Die Sapiens-Modelle könnten auch als Werkzeug dienen, um große Mengen realer Daten zu annotieren und so die nächste Generation menschenzentrierter Bildanalysesysteme zu entwickeln.

Meta stellt die Sapiens-Modelle der Forschungsgemeinschaft auf GitHub zur Verfügung.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Meta stellt KI-Modelle für menschenzentrierte Bildanalyse vor

Sapiens-Modelle könnten bessere Datensätze ermöglichen

Metas KI-Labor wird 10 Jahre alt und zeigt drei neue Projekte

DINOv2: Metas Foundation-Modell für Computer Vision gibt's jetzt als Open Source

Nougat: Metas neuestes KI-Modell macht wissenschaftliche PDFs maschinenlesbar

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Meta stellt KI-Modelle für menschenzentrierte Bildanalyse vor

Sapiens-Modelle könnten bessere Datensätze ermöglichen

Metas KI-Labor wird 10 Jahre alt und zeigt drei neue Projekte

DINOv2: Metas Foundation-Modell für Computer Vision gibt's jetzt als Open Source

Nougat: Metas neuestes KI-Modell macht wissenschaftliche PDFs maschinenlesbar