Inhalt
summary Zusammenfassung

Mit Segment Anything veröffentlicht Meta ein beeindruckendes KI-Modell für die Bildsegmentierung, das als zentraler Baustein für zukünftige KI-Anwendungen dienen kann.

Metas Segment Anything Model (SAM) wurde mit knapp 11 Millionen Bildern aus aller Welt und einer Milliarde halb-automatisiert gesetzten Segmentierungen trainiert. Das Ziel sei die Entwicklung eines "Foundation Models" für die Bildsegmentierung gewesen und wurde laut Meta erreicht.

Solche Foundation Modelle werden mit großen Datenmengen trainiert und erreichen so generalisierte Fähigkeiten, die sie für den Zero- oder Few-Shot-Einsatz in vielen spezialisierten Anwendungsfällen befähigen. Der Erfolg großer vortrainierter Sprachmodelle wie GPT-3 löste den Trend zu solchen Modellen aus.

Video: Meta

Anzeige
Anzeige

SAM kann nach dem Training in jedem Bild auch vorher unbekannte Objekte segmentieren und kann durch verschiedene Eingaben gesteuert werden: SAM kann das gesamte Bild automatisch scannen, Benutzerinnen und Benutzer können zu segmentierende Bereiche markieren oder bestimmte Objekte anklicken. SAM soll auch mit Text umgehen können, da Meta neben dem Vision Transformer, der das Bild zunächst verarbeitet, auch ein CLIP-Modell in seine Architektur integriert.

Der Nvidia-Forscher Jim Fan bezeichnete SAM als den "GPT-3-Moment" in der Computer Vision. "Es hat ein allgemeines Konzept von Objekten gelernt, sogar für unbekannte Objekte, unbekannte Szenen (z.B. Unterwasser- und Zellmikroskopie) und unklare Fälle."

Metas SAM für alles und die XR-Zukunft

Meta sieht zahlreiche Anwendungen für SAM, z.B. als Teil multimodaler KI-Systeme, die visuelle und sprachliche Inhalte auf Webseiten verstehen oder kleine organische Strukturen in der Mikroskopie segmentieren können.

Video: Meta

Empfehlung

In der XR-Domäne könnte SAM automatisch Objekte segmentieren, ein Mensch mit einer XR-Brille betrachten, und ausgewählte Objekte könnten dann von Modellen wie Metas MCC in 3D-Objekte umgewandelt werden.

Video: Meta

SAM könnte auch für die wissenschaftliche Untersuchung von Naturphänomenen auf der Erde oder sogar im Weltraum eingesetzt werden, z.B. durch die Ortung von Tieren oder Objekten, die in Videos untersucht und verfolgt werden. Wir glauben, dass die Möglichkeiten vielfältig sind und wir sind begeistert von den vielen potenziellen Anwendungen, die wir uns noch gar nicht vorstellen können.

Meta

Im begleitenden Paper vergleichen die Autor:innen SAM mit CLIP: Wie das multimodale Modell von OpenAI sei auch SAM explizit darauf ausgelegt, als Baustein in größeren KI-Modellen zu dienen und so zahlreiche Anwendungen zu ermöglichen.

Segment Anything Datensatz und Demo verfügbar

An einer Stelle hakt Fans GPT-3-Vergleich: Metas SAM ist anders als OpenAIs Sprachmodell Open-Source. Neben dem Modell veröffentlicht Meta auch den verwendeten Trainingsdatensatz SA-1B. Dieser enthält sechsmal mehr Bilder als die bisher verfügbaren Datensätze und 400-mal mehr Segmentierungsmasken. Die Daten wurden in einer Mensch-Maschine-Kooperation erhoben, bei der SAM iterativ aus von Menschen erzeugten Trainingsdaten immer bessere Segmentierungen erzeugte, die dann immer wieder von Menschen korrigiert wurden.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

SAM ist auf GitHub verfügbar und kann über eine Demo ausprobiert werden.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das Segment Anything Model (SAM) von Meta ist ein Foundation-Modell zur Bildsegmentierung, das praktisch jedes Objekt in jedem Bild segmentieren kann.
  • Meta sieht Anwendungen für SAM in vielen Bereichen, wie z.B. dem Verstehen von Webseiten, XR-Brillen oder wissenschaftlichen Untersuchungen in der Biologie oder im Weltraum.
  • Meta veröffentlicht das Modell, den riesigen Trainingsdatensatz und eine Demo.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!