Inhalt
summary Zusammenfassung

SAM 2 kann im Gegensatz zum Vorgänger auch Videos segmentieren und erzielt bessere Ergebnisse bei der Bildsegmentierung. Meta stellt das Modell, den Code und die Daten als Open Source zur Verfügung.

Anzeige

Im April 2023 stellte Meta erstmals sein "Segement Anything Model" (SAM) vor, ein Foundation-Model für die Bildsegmentierung, das damals in der KI-Szene auch als "GPT-3"-Moment für Computer Vision bezeichnet wurde, weil der Qualitätssprung so groß war.

Jetzt legt Meta mit SAM 2 nach: Im Unterschied zu SAM, das auf 11 Millionen Bildern trainiert wurde und für die Bild-Segmentierung optimiert ist, kann SAM 2 auch Videos segmentieren. Das klappt laut Meta auch mit qualitativ minderwertigen Videos noch verlässlich, oder wenn Objekte von anderen Objekten verdeckt werden.

Die Verdeckung (Occlusion) galt lange Zeit als ein schwieriges Problem des maschinellen Sehens, das heute weitgehend gelöst ist. Darunter versteht man in diesem Beispiel, dass nur der Teil des Jungen verfolgt wird, der hinter dem Baum sichtbar ist. | Video: Meta

Anzeige
Anzeige

SAM 2 wurde auf dem neuen Datensatz SA-V (Segment Anything Video) trainiert, dem bisher größten öffentlich verfügbaren Video-Segmentierungsdatensatz. Laut Meta enthält SA-V 50.900 Videos mit insgesamt 642.600 Masken-Annotationen und umfasst 35,5 Millionen Einzelmasken - 53 Mal mehr als bisherige Datensätze. Mit fast 200 Stunden annotiertem Videomaterial stellt SA-V eine neue Messlatte für Trainingsdaten dar.

Bei der Erstellung des Datensatzes halfen die beiden SAM-Systeme mit: Meta verwendete ein "Data Engine" genanntes Annotationssystem mit menschlichen Annotatoren, das Videos bis zu 8,4 Mal schneller annotieren kann als andere Systeme. Die Annotatoren nutzten SAM 2 interaktiv zur Kommentierung von Masklets in Videos, und die neu kommentierten Daten wurden wiederum zur Aktualisierung von SAM 2 verwendet.

Architektonisch baut SAM 2 auf dem Transformer-basierten Vorgänger auf. Neu ist ein Speichermodul, das Informationen über ein Objekt und vorherige Interaktionen über Videobilder hinweg speichert. So kann SAM 2 Objekte über längere Sequenzen verfolgen und auf Nutzereingaben reagieren.

Video: Meta

SAM 2 setzt neue Maßstäbe in der Video- und Bildsegmentierung

In Experimenten zeigte SAM 2 eine bessere Segmentierungsgenauigkeit bei dreifach weniger Interaktionen im Vergleich zu bisherigen Ansätzen. Auf etablierten Benchmarks für Videoobjektsegmentierung übertrifft das neue Modell laut Meta den aktuellen Stand der Technik. Auch bei der Bildsegmentierung erzielte SAM 2 bessere Ergebnisse als das ursprüngliche SAM-Modell, bei sechsfach höherer Geschwindigkeit.

Empfehlung

Laut Meta soll SAM 2 robust gegenüber Hautfarbe und Alter sein, zwischen Geschlechtern gebe es minimale Schwankungen. Die Inferenzgeschwindigkeit liegt bei 44 Frames pro Sekunde und ist damit nahezu in Echtzeit.

Trotz der Fortschritte hat auch SAM 2 Grenzen: Das Modell verliert manchmal Objekte nach Schnitten oder langen Verdeckungen und hat Probleme mit der Segmentierung feiner Details. In einer Gruppe ähnlicher, sich bewegender Objekte könne das Tracking verrutschen. Eine explizite Modellierung von Bewegung könnte hier Abhilfe schaffen, schreiben die Forscher.

Bei vielen ähnlichen, sich bewegenden Objekten im Bild kann die Segmentierung von SAM 2 verrutschen. | Video: Meta

Die Forscher sehen in SAM 2 einen wichtigen Fortschritt für die visuelle Wahrnehmung von Maschinen, der weitere Forschung und Anwendungen in diesem Bereich vorantreiben könnte, etwa für Roboter, die sich verlässlicher in der realen Welt bewegen und mit ihr interagieren können, oder um Videoeffekte in einem generativen KI-Videomodell zu ermöglichen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Meta veröffentlicht das Modell SAM 2, den Code und die Weights als Open Source unter der Apache 2.0 Lizenz. Der SA-V-Datensatz wird unter einer CC-by-4.0-Lizenz veröffentlicht. SAM 2 kann in einer interaktiven Demo getestet werden.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta stellt sein neues Open-Source-Modell SAM 2 vor, das im Gegensatz zu seinem Vorgänger SAM auch Videos segmentieren kann und bessere Ergebnisse bei der Bildsegmentierung erzielt.
  • SAM 2 wurde auf dem bisher größten öffentlich verfügbaren Video-Segmentierungsdatensatz SA-V trainiert, der 50.900 Videos mit insgesamt 642.600 Maskenannotationen umfasst und mit einem schnellen Annotationssystem und den SAM-Modellen erstellt wurde.
  • In Experimenten zeigte SAM 2 eine bessere Segmentierungsgenauigkeit mit weniger Interaktionen als bisherige Ansätze und übertraf den aktuellen Stand der Technik auf etablierten Benchmarks, trotz einiger Einschränkungen bei feinen Details und der Objektverfolgung in komplexen Szenen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!