DINOv2: Metas Foundation-Modell für Computer Vision gibt's jetzt als Open Source

Update

Meta stellt DINOv2 jetzt unter einer Apache 2.0-Lizenz als Open Source zur Verfügung.
Mit FACET (FAirness in Computer Vision EvaluaTion) stellt Meta zudem einen Benchmark für Bias in Computer-Vision-Modellen vor.

Update vom 31. August 2023:

Meta stellt sein Computer-Vision-Modell DINOv2 unter der Apache 2.0 Lizenz zur Verfügung, um Entwicklern und Forschern mehr Flexibilität für nachgelagerte Aufgaben zu bieten. Meta veröffentlicht auch eine Sammlung von DINOv2-basierten Dense-Prediction-Modellen für semantische Bildsegmentierung und monokulare Tiefenschätzung.

Meta stellt auch FACET vor, einen Benchmark für die Bewertung der Fairness von Computer-Vision-Modellen bei Aufgaben wie Klassifizierung und Segmentierung. Der Datensatz umfasst 32.000 Bilder von 50.000 Personen, die neben physischen Merkmalen auch demographische Attribute wie das wahrgenommene Geschlecht und die Altersgruppe enthalten.

FACET soll ein Standard-Benchmark für die Bewertung der Fairness von Computer-Vision-Modellen werden und das Design und die Entwicklung von Modellen fördern, die mehr Menschen berücksichtigen.

Ursprünglicher Artikel vom 18. April 2023:

Metas DINOv2 ist ein Foundation-Modell für Computer Vision. Das Unternehmen zeigt seine Stärken und will es mit großen Sprachmodellen verknüpfen.

Im Mai 2021 präsentierten die KI-Forscher von Meta DINO (Self-Distillation with no labels), ein selbst-überwacht trainiertes KI-Modell für Bildaufgaben wie Klassifikation oder Segmentierung. Mit DINOv2 veröffentlicht Meta nun eine deutlich verbesserte Version.

Wie DINO ist auch DINOv2 ein mit selbst-überwachtem Lernen trainiertes Computer Vision Modell und liegt laut Meta in allen getesteten Aufgaben auf dem Niveau der derzeit besten spezialisierten Systeme oder übertrifft diese sogar. Aufgrund des selbst-überwachten Lernens sind keine gelabelten Daten notwendig und die DINO-Modelle können mit großen, unbeschrifteten Bilddatensätzen trainiert werden.

Video: Meta

Empfehlung

KI-Forschung

Kein Fünkchen Verständnis: Apple-Forscher bezweifeln Logik-Fähigkeiten von OpenAI o1

DINOv2 ist ein Baustein für alle Computer-Vision-Aufgaben

"DINOv2 bietet leistungsfähige Merkmale, die direkt als Input für einfache lineare Klassifikatoren verwendet werden können", sagt Meta. Dies macht DINOv2 zu einem flexiblen und vielseitigen Werkzeug für eine Vielzahl von Computer-Vision-Aufgaben, von visuellen Aufgaben auf Bildebene (Bildklassifikation, Instanzensuche, Videoverständnis) bis hin zu visuellen Aufgaben auf Pixelebene (Tiefenschätzung, semantische Segmentierung).

Video: Meta

Laut Meta könnten die DINOv2-Modelle für verschiedene Anwendungen nützlich sein, z.B. für die Kartierung von Wäldern mit dem World Resources Institute, für die Schätzung von Tierdichten und -häufigkeiten und für die biologische Forschung, z.B. in der Zellmikroskopie.

Für das Training sammelte Meta 1,2 Milliarden Bilder und filterte und balancierte den Datensatz. Am Ende wurde DINOv2 so mit 142 Millionen Bildern trainiert. Wie der Vorgänger setzt auch DINOv2 auf Vision Transformers.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Meta will DINOv2 mit großen Sprachmodellen verknüpfen

DINOv2 ergänzt Metas Arbeiten im Bereich des maschinellen Sehens, insbesondere "Segment Anything", ein kürzlich veröffentlichtes Modell für die Zero-Shot-Bildsegmentierung mit Prompt-Fähigkeiten. Meta sieht DINOv2 dagegen als einen Baustein, der mit anderen Klassifikatoren verknüpft werden kann und so in vielen Bereichen außerhalb der Segmentierung eingesetzt werden kann.

Das Unternehmen veröffentlicht den Code und einige Modelle der DINOv2-Familie. Das Unternehmen plant nun, DINOv2 in ein komplexeres KI-System zu integrieren, das mit großen Sprachmodellen interagieren kann. "Ein visuelles Grundgerüst, das reichhaltige Informationen über Bilder liefert, wird es komplexen KI-Systemen ermöglichen, Bilder auf eine tiefere Weise zu interpretieren, als sie lediglich mit einem einzigen Satz Text zu beschreiben."

Modelle wie CLIP, die mit Bild-Text-Paaren trainiert würden, seien letztlich durch die Bildunterschriften begrenzt. Mit DINOv2 gäbe es keine solchen eingebauten Beschränkungen.

Mehr Informationen gibt es auf der Projektseite. Dort gibt es auch Demos für DINOv2. Code und Checkpoints gibt es auf Github.

DINOv2: Metas Foundation-Modell für Computer Vision gibt's jetzt als Open Source

Kein Fünkchen Verständnis: Apple-Forscher bezweifeln Logik-Fähigkeiten von OpenAI o1

DINOv2 ist ein Baustein für alle Computer-Vision-Aufgaben

Meta will DINOv2 mit großen Sprachmodellen verknüpfen

Meta stellt KI-Modelle für menschenzentrierte Bildanalyse vor

Metas KI-Labor wird 10 Jahre alt und zeigt drei neue Projekte

Nougat: Metas neuestes KI-Modell macht wissenschaftliche PDFs maschinenlesbar

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

DINOv2: Metas Foundation-Modell für Computer Vision gibt's jetzt als Open Source

DINOv2 ist ein Baustein für alle Computer-Vision-Aufgaben

Meta will DINOv2 mit großen Sprachmodellen verknüpfen

Artikel teilen

Bankverbindung