Metas "Segment Anything" ist der GPT-3 Moment für Computer Vision

Mit Segment Anything veröffentlicht Meta ein beeindruckendes KI-Modell für die Bildsegmentierung, das als zentraler Baustein für zukünftige KI-Anwendungen dienen kann.

Metas Segment Anything Model (SAM) wurde mit knapp 11 Millionen Bildern aus aller Welt und einer Milliarde halb-automatisiert gesetzten Segmentierungen trainiert. Das Ziel sei die Entwicklung eines "Foundation Models" für die Bildsegmentierung gewesen und wurde laut Meta erreicht.

Solche Foundation Modelle werden mit großen Datenmengen trainiert und erreichen so generalisierte Fähigkeiten, die sie für den Zero- oder Few-Shot-Einsatz in vielen spezialisierten Anwendungsfällen befähigen. Der Erfolg großer vortrainierter Sprachmodelle wie GPT-3 löste den Trend zu solchen Modellen aus.

Video: Meta

SAM kann nach dem Training in jedem Bild auch vorher unbekannte Objekte segmentieren und kann durch verschiedene Eingaben gesteuert werden: SAM kann das gesamte Bild automatisch scannen, Benutzerinnen und Benutzer können zu segmentierende Bereiche markieren oder bestimmte Objekte anklicken. SAM soll auch mit Text umgehen können, da Meta neben dem Vision Transformer, der das Bild zunächst verarbeitet, auch ein CLIP-Modell in seine Architektur integriert.

Der Nvidia-Forscher Jim Fan bezeichnete SAM als den "GPT-3-Moment" in der Computer Vision. "Es hat ein allgemeines Konzept von Objekten gelernt, sogar für unbekannte Objekte, unbekannte Szenen (z.B. Unterwasser- und Zellmikroskopie) und unklare Fälle."

Reading @MetaAI's Segment-Anything, and I believe today is one of the "GPT-3 moments" in computer vision. It has learned the *general* concept of what an "object" is, even for unknown objects, unfamiliar scenes (e.g. underwater & cell microscopy), and ambiguous cases.

I still… pic.twitter.com/lFWoYAxDmw

— Jim Fan (@DrJimFan) April 5, 2023

Metas SAM für alles und die XR-Zukunft

Meta sieht zahlreiche Anwendungen für SAM, z.B. als Teil multimodaler KI-Systeme, die visuelle und sprachliche Inhalte auf Webseiten verstehen oder kleine organische Strukturen in der Mikroskopie segmentieren können.

Video: Meta

Empfehlung

KI in der Praxis

GPT-o1-mini unterstützt Mathematiker bei komplexem Beweis, aber es ist kompliziert

In der XR-Domäne könnte SAM automatisch Objekte segmentieren, ein Mensch mit einer XR-Brille betrachten, und ausgewählte Objekte könnten dann von Modellen wie Metas MCC in 3D-Objekte umgewandelt werden.

Video: Meta

SAM könnte auch für die wissenschaftliche Untersuchung von Naturphänomenen auf der Erde oder sogar im Weltraum eingesetzt werden, z.B. durch die Ortung von Tieren oder Objekten, die in Videos untersucht und verfolgt werden. Wir glauben, dass die Möglichkeiten vielfältig sind und wir sind begeistert von den vielen potenziellen Anwendungen, die wir uns noch gar nicht vorstellen können.

Meta

Im begleitenden Paper vergleichen die Autor:innen SAM mit CLIP: Wie das multimodale Modell von OpenAI sei auch SAM explizit darauf ausgelegt, als Baustein in größeren KI-Modellen zu dienen und so zahlreiche Anwendungen zu ermöglichen.

Segment Anything Datensatz und Demo verfügbar

An einer Stelle hakt Fans GPT-3-Vergleich: Metas SAM ist anders als OpenAIs Sprachmodell Open-Source. Neben dem Modell veröffentlicht Meta auch den verwendeten Trainingsdatensatz SA-1B. Dieser enthält sechsmal mehr Bilder als die bisher verfügbaren Datensätze und 400-mal mehr Segmentierungsmasken. Die Daten wurden in einer Mensch-Maschine-Kooperation erhoben, bei der SAM iterativ aus von Menschen erzeugten Trainingsdaten immer bessere Segmentierungen erzeugte, die dann immer wieder von Menschen korrigiert wurden.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

SAM ist auf GitHub verfügbar und kann über eine Demo ausprobiert werden.

Metas "Segment Anything" ist der GPT-3 Moment für Computer Vision

Metas SAM für alles und die XR-Zukunft

GPT-o1-mini unterstützt Mathematiker bei komplexem Beweis, aber es ist kompliziert

Segment Anything Datensatz und Demo verfügbar

Devstral: Mistral AI bringt neue KI-Modelle für Programmieragenten auf den Markt

Denkprotokolle zeigen: Grok sucht bei Streitfragen häufig gezielt nach Musks X-Posts

OpenAI: KI ersetzt nicht Ärzte, sondern das Nicht-zum-Arzt-Gehen

KI-Coding kann Entwickler langsamer machen – auch wenn sie sich schneller fühlen

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Metas "Segment Anything" ist der GPT-3 Moment für Computer Vision

Metas SAM für alles und die XR-Zukunft

Segment Anything Datensatz und Demo verfügbar

Artikel teilen

Bankverbindung