Inhalt
summary Zusammenfassung
Update
  • Meta stellt DINOv2 jetzt unter einer Apache 2.0-Lizenz als Open Source zur Verfügung.
  • Mit FACET (FAirness in Computer Vision EvaluaTion) stellt Meta zudem einen Benchmark für Bias in Computer-Vision-Modellen vor.

Update vom 31. August 2023:

Meta stellt sein Computer-Vision-Modell DINOv2 unter der Apache 2.0 Lizenz zur Verfügung, um Entwicklern und Forschern mehr Flexibilität für nachgelagerte Aufgaben zu bieten. Meta veröffentlicht auch eine Sammlung von DINOv2-basierten Dense-Prediction-Modellen für semantische Bildsegmentierung und monokulare Tiefenschätzung.

Meta stellt auch FACET vor, einen Benchmark für die Bewertung der Fairness von Computer-Vision-Modellen bei Aufgaben wie Klassifizierung und Segmentierung. Der Datensatz umfasst 32.000 Bilder von 50.000 Personen, die neben physischen Merkmalen auch demographische Attribute wie das wahrgenommene Geschlecht und die Altersgruppe enthalten.

FACET soll ein Standard-Benchmark für die Bewertung der Fairness von Computer-Vision-Modellen werden und das Design und die Entwicklung von Modellen fördern, die mehr Menschen berücksichtigen.

Anzeige
Anzeige

Ursprünglicher Artikel vom 18. April 2023:

Metas DINOv2 ist ein Foundation-Modell für Computer Vision. Das Unternehmen zeigt seine Stärken und will es mit großen Sprachmodellen verknüpfen.

Im Mai 2021 präsentierten die KI-Forscher von Meta DINO (Self-Distillation with no labels), ein selbst-überwacht trainiertes KI-Modell für Bildaufgaben wie Klassifikation oder Segmentierung. Mit DINOv2 veröffentlicht Meta nun eine deutlich verbesserte Version.

Wie DINO ist auch DINOv2 ein mit selbst-überwachtem Lernen trainiertes Computer Vision Modell und liegt laut Meta in allen getesteten Aufgaben auf dem Niveau der derzeit besten spezialisierten Systeme oder übertrifft diese sogar. Aufgrund des selbst-überwachten Lernens sind keine gelabelten Daten notwendig und die DINO-Modelle können mit großen, unbeschrifteten Bilddatensätzen trainiert werden.

Video: Meta

Empfehlung

DINOv2 ist ein Baustein für alle Computer-Vision-Aufgaben

"DINOv2 bietet leistungsfähige Merkmale, die direkt als Input für einfache lineare Klassifikatoren verwendet werden können", sagt Meta. Dies macht DINOv2 zu einem flexiblen und vielseitigen Werkzeug für eine Vielzahl von Computer-Vision-Aufgaben, von visuellen Aufgaben auf Bildebene (Bildklassifikation, Instanzensuche, Videoverständnis) bis hin zu visuellen Aufgaben auf Pixelebene (Tiefenschätzung, semantische Segmentierung).

Video: Meta

Laut Meta könnten die DINOv2-Modelle für verschiedene Anwendungen nützlich sein, z.B. für die Kartierung von Wäldern mit dem World Resources Institute, für die Schätzung von Tierdichten und -häufigkeiten und für die biologische Forschung, z.B. in der Zellmikroskopie.

Für das Training sammelte Meta 1,2 Milliarden Bilder und filterte und balancierte den Datensatz. Am Ende wurde DINOv2 so mit 142 Millionen Bildern trainiert. Wie der Vorgänger setzt auch DINOv2 auf Vision Transformers.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Meta will DINOv2 mit großen Sprachmodellen verknüpfen

DINOv2 ergänzt Metas Arbeiten im Bereich des maschinellen Sehens, insbesondere "Segment Anything", ein kürzlich veröffentlichtes Modell für die Zero-Shot-Bildsegmentierung mit Prompt-Fähigkeiten. Meta sieht DINOv2 dagegen als einen Baustein, der mit anderen Klassifikatoren verknüpft werden kann und so in vielen Bereichen außerhalb der Segmentierung eingesetzt werden kann.

Das Unternehmen veröffentlicht den Code und einige Modelle der DINOv2-Familie. Das Unternehmen plant nun, DINOv2 in ein komplexeres KI-System zu integrieren, das mit großen Sprachmodellen interagieren kann. "Ein visuelles Grundgerüst, das reichhaltige Informationen über Bilder liefert, wird es komplexen KI-Systemen ermöglichen, Bilder auf eine tiefere Weise zu interpretieren, als sie lediglich mit einem einzigen Satz Text zu beschreiben."

Modelle wie CLIP, die mit Bild-Text-Paaren trainiert würden, seien letztlich durch die Bildunterschriften begrenzt. Mit DINOv2 gäbe es keine solchen eingebauten Beschränkungen.

Mehr Informationen gibt es auf der Projektseite. Dort gibt es auch Demos für DINOv2. Code und Checkpoints gibt es auf Github.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta veröffentlicht DINOv2, eine Familie selbst-überwacht trainierter Computer-Vision-Modelle, die zahlreiche Aufgaben wie Tiefenschätzung oder Segmentierung übernehmen können.
  • Die DINOv2-Modelle wurden mit über 140 Millionen Bildern trainiert und Meta betrachtet sie als Foundation-Modelle, die mit anderen Klassifikatoren verknüpft werden können.
  • Meta will DINOv2 mit großen Sprachmodellen verknüpfen, um leistungsfähigere Modelle für die Analyse und Verarbeitung von Bildern zu schaffen.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!