Meta stellt KI-Modelle für menschenzentrierte Bildanalyse vor
Kurz & Knapp
- Meta hat eine neue Familie von KI-Modellen namens "Sapiens" vorgestellt, die sich auf die Analyse von Bildern mit Menschen spezialisieren. Die Modelle wurden mit 300 Millionen menschlichen Bildern vortrainiert und können Aufgaben wie 2D-Posenschätzung und Körpersegmentierung ausführen.
- Das größte Modell, Sapiens-2B, verfügt über 2 Milliarden Parameter und wurde mit einer Bildauflösung von 1024 mal 1024 Pixeln trainiert. Bei der Körpersegmentierung erzielt es eine Verbesserung von mehr als 17 Prozentpunkten gegenüber früheren Methoden.
- Laut den Forschern könnte Sapiens als Werkzeug dienen, um große Mengen realer Daten zu annotieren und so die nächste Generation menschenzentrierter Bildanalysesysteme zu entwickeln. Meta stellt die Modelle der Forschungsgemeinschaft auf GitHub zur Verfügung.
Meta hat eine neue Familie von KI-Modellen namens "Sapiens" vorgestellt, die sich auf die Analyse von Bildern mit Menschen spezialisieren.
Die Modelle wurden mit einem Datensatz von 300 Millionen menschlichen Bildern vortrainiert und können verschiedene Aufgaben wie 2D-Posenschätzung, Körpersegmentierung, Tiefenschätzung und Oberflächennormalschätzung ausführen. Bei letzterer wird für jeden Punkt eines Bildes die Orientierung der Oberfläche im dreidimensionalen Raum bestimmt. Diese Information ist wichtig für das Verständnis der 3D-Struktur von Objekten und Personen im Bild und spielt eine wichtige Rolle für die realistische Beleuchtung in 3D-Rekonstruktionen.
Laut Meta übertreffen die Sapiens-Modelle bestehende Ansätze bei diesen Aufgaben deutlich. Bei der Körpersegmentierung, bei der einzelne Körperteile in Bildern identifiziert werden, erzielt das Sapiens-2B-Modell etwa eine Verbesserung von mehr als 17 Prozentpunkten gegenüber früheren Methoden.
Video: Meta
Die Forscher betonen, dass die Leistung der Modelle mit ihrer Größe zunimmt: Das größte Modell, Sapiens-2B, verfügt über 2 Milliarden Parameter und wurde nativ mit einer Bildauflösung von 1024 mal 1024 Pixeln trainiert. Dies ermöglicht laut Meta eine detailliertere Analyse als bei herkömmlichen Modellen mit niedrigerer Auflösung.
Sapiens-Modelle könnten bessere Datensätze ermöglichen
Als Schlüsselfaktor für die Leistung der Sapiens-Modelle sehen die Forscher das Vortraining auf dem großen, kuratierten Datensatz von Menschenbildern. Diese führe zu einer besseren Generalisierung auf reale Szenarien als ein Training auf allgemeinen Bilddaten, wie es sonst üblich ist. Ein Beispiel für ein solches System ist Metas Segment Anything 2.
Trotz der besseren Leistung gibt es laut dem Team aber immer noch Probleme bei komplexen Posen, Menschenmengen und starken Verdeckungen. Die Sapiens-Modelle könnten auch als Werkzeug dienen, um große Mengen realer Daten zu annotieren und so die nächste Generation menschenzentrierter Bildanalysesysteme zu entwickeln.
Meta stellt die Sapiens-Modelle der Forschungsgemeinschaft auf GitHub zur Verfügung.
KI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.