SAM 2 kann im Gegensatz zum Vorgänger auch Videos segmentieren und erzielt bessere Ergebnisse bei der Bildsegmentierung. Meta stellt das Modell, den Code und die Daten als Open Source zur Verfügung.
Im April 2023 stellte Meta erstmals sein "Segement Anything Model" (SAM) vor, ein Foundation-Model für die Bildsegmentierung, das damals in der KI-Szene auch als "GPT-3"-Moment für Computer Vision bezeichnet wurde, weil der Qualitätssprung so groß war.
Jetzt legt Meta mit SAM 2 nach: Im Unterschied zu SAM, das auf 11 Millionen Bildern trainiert wurde und für die Bild-Segmentierung optimiert ist, kann SAM 2 auch Videos segmentieren. Das klappt laut Meta auch mit qualitativ minderwertigen Videos noch verlässlich, oder wenn Objekte von anderen Objekten verdeckt werden.
SAM 2 wurde auf dem neuen Datensatz SA-V (Segment Anything Video) trainiert, dem bisher größten öffentlich verfügbaren Video-Segmentierungsdatensatz. Laut Meta enthält SA-V 50.900 Videos mit insgesamt 642.600 Masken-Annotationen und umfasst 35,5 Millionen Einzelmasken - 53 Mal mehr als bisherige Datensätze. Mit fast 200 Stunden annotiertem Videomaterial stellt SA-V eine neue Messlatte für Trainingsdaten dar.
Bei der Erstellung des Datensatzes halfen die beiden SAM-Systeme mit: Meta verwendete ein "Data Engine" genanntes Annotationssystem mit menschlichen Annotatoren, das Videos bis zu 8,4 Mal schneller annotieren kann als andere Systeme. Die Annotatoren nutzten SAM 2 interaktiv zur Kommentierung von Masklets in Videos, und die neu kommentierten Daten wurden wiederum zur Aktualisierung von SAM 2 verwendet.
Architektonisch baut SAM 2 auf dem Transformer-basierten Vorgänger auf. Neu ist ein Speichermodul, das Informationen über ein Objekt und vorherige Interaktionen über Videobilder hinweg speichert. So kann SAM 2 Objekte über längere Sequenzen verfolgen und auf Nutzereingaben reagieren.
SAM 2 setzt neue Maßstäbe in der Video- und Bildsegmentierung
In Experimenten zeigte SAM 2 eine bessere Segmentierungsgenauigkeit bei dreifach weniger Interaktionen im Vergleich zu bisherigen Ansätzen. Auf etablierten Benchmarks für Videoobjektsegmentierung übertrifft das neue Modell laut Meta den aktuellen Stand der Technik. Auch bei der Bildsegmentierung erzielte SAM 2 bessere Ergebnisse als das ursprüngliche SAM-Modell, bei sechsfach höherer Geschwindigkeit.
Laut Meta soll SAM 2 robust gegenüber Hautfarbe und Alter sein, zwischen Geschlechtern gebe es minimale Schwankungen. Die Inferenzgeschwindigkeit liegt bei 44 Frames pro Sekunde und ist damit nahezu in Echtzeit.
Trotz der Fortschritte hat auch SAM 2 Grenzen: Das Modell verliert manchmal Objekte nach Schnitten oder langen Verdeckungen und hat Probleme mit der Segmentierung feiner Details. In einer Gruppe ähnlicher, sich bewegender Objekte könne das Tracking verrutschen. Eine explizite Modellierung von Bewegung könnte hier Abhilfe schaffen, schreiben die Forscher.
Die Forscher sehen in SAM 2 einen wichtigen Fortschritt für die visuelle Wahrnehmung von Maschinen, der weitere Forschung und Anwendungen in diesem Bereich vorantreiben könnte, etwa für Roboter, die sich verlässlicher in der realen Welt bewegen und mit ihr interagieren können, oder um Videoeffekte in einem generativen KI-Videomodell zu ermöglichen.
Meta veröffentlicht das Modell SAM 2, den Code und die Weights als Open Source unter der Apache 2.0 Lizenz. Der SA-V-Datensatz wird unter einer CC-by-4.0-Lizenz veröffentlicht. SAM 2 kann in einer interaktiven Demo getestet werden.