Mit Segment Anything veröffentlicht Meta ein beeindruckendes KI-Modell für die Bildsegmentierung, das als zentraler Baustein für zukünftige KI-Anwendungen dienen kann.
Metas Segment Anything Model (SAM) wurde mit knapp 11 Millionen Bildern aus aller Welt und einer Milliarde halb-automatisiert gesetzten Segmentierungen trainiert. Das Ziel sei die Entwicklung eines "Foundation Models" für die Bildsegmentierung gewesen und wurde laut Meta erreicht.
Solche Foundation Modelle werden mit großen Datenmengen trainiert und erreichen so generalisierte Fähigkeiten, die sie für den Zero- oder Few-Shot-Einsatz in vielen spezialisierten Anwendungsfällen befähigen. Der Erfolg großer vortrainierter Sprachmodelle wie GPT-3 löste den Trend zu solchen Modellen aus.
SAM kann nach dem Training in jedem Bild auch vorher unbekannte Objekte segmentieren und kann durch verschiedene Eingaben gesteuert werden: SAM kann das gesamte Bild automatisch scannen, Benutzerinnen und Benutzer können zu segmentierende Bereiche markieren oder bestimmte Objekte anklicken. SAM soll auch mit Text umgehen können, da Meta neben dem Vision Transformer, der das Bild zunächst verarbeitet, auch ein CLIP-Modell in seine Architektur integriert.
Der Nvidia-Forscher Jim Fan bezeichnete SAM als den "GPT-3-Moment" in der Computer Vision. "Es hat ein allgemeines Konzept von Objekten gelernt, sogar für unbekannte Objekte, unbekannte Szenen (z.B. Unterwasser- und Zellmikroskopie) und unklare Fälle."
Reading @MetaAI's Segment-Anything, and I believe today is one of the "GPT-3 moments" in computer vision. It has learned the *general* concept of what an "object" is, even for unknown objects, unfamiliar scenes (e.g. underwater & cell microscopy), and ambiguous cases.
I still… pic.twitter.com/lFWoYAxDmw
— Jim Fan (@DrJimFan) April 5, 2023
Metas SAM für alles und die XR-Zukunft
Meta sieht zahlreiche Anwendungen für SAM, z.B. als Teil multimodaler KI-Systeme, die visuelle und sprachliche Inhalte auf Webseiten verstehen oder kleine organische Strukturen in der Mikroskopie segmentieren können.
Video: Meta
In der XR-Domäne könnte SAM automatisch Objekte segmentieren, ein Mensch mit einer XR-Brille betrachten, und ausgewählte Objekte könnten dann von Modellen wie Metas MCC in 3D-Objekte umgewandelt werden.
SAM könnte auch für die wissenschaftliche Untersuchung von Naturphänomenen auf der Erde oder sogar im Weltraum eingesetzt werden, z.B. durch die Ortung von Tieren oder Objekten, die in Videos untersucht und verfolgt werden. Wir glauben, dass die Möglichkeiten vielfältig sind und wir sind begeistert von den vielen potenziellen Anwendungen, die wir uns noch gar nicht vorstellen können.
Meta
Im begleitenden Paper vergleichen die Autor:innen SAM mit CLIP: Wie das multimodale Modell von OpenAI sei auch SAM explizit darauf ausgelegt, als Baustein in größeren KI-Modellen zu dienen und so zahlreiche Anwendungen zu ermöglichen.
Segment Anything Datensatz und Demo verfügbar
An einer Stelle hakt Fans GPT-3-Vergleich: Metas SAM ist anders als OpenAIs Sprachmodell Open-Source. Neben dem Modell veröffentlicht Meta auch den verwendeten Trainingsdatensatz SA-1B. Dieser enthält sechsmal mehr Bilder als die bisher verfügbaren Datensätze und 400-mal mehr Segmentierungsmasken. Die Daten wurden in einer Mensch-Maschine-Kooperation erhoben, bei der SAM iterativ aus von Menschen erzeugten Trainingsdaten immer bessere Segmentierungen erzeugte, die dann immer wieder von Menschen korrigiert wurden.
SAM ist auf GitHub verfügbar und kann über eine Demo ausprobiert werden.