Metas DINOv2 ist ein Foundation-Modell für Computer Vision. Das Unternehmen zeigt seine Stärken und will es mit großen Sprachmodellen verknüpfen.
Im Mai 2021 präsentierten die KI-Forscher von Meta DINO (Self-Distillation with no labels), ein selbst-überwacht trainiertes KI-Modell für Bildaufgaben wie Klassifikation oder Segmentierung. Mit DINOv2 veröffentlicht Meta nun eine deutlich verbesserte Version.
Wie DINO ist auch DINOv2 ein mit selbst-überwachtem Lernen trainiertes Computer Vision Modell und liegt laut Meta in allen getesteten Aufgaben auf dem Niveau der derzeit besten spezialisierten Systeme oder übertrifft diese sogar. Aufgrund des selbst-überwachten Lernens sind keine gelabelten Daten notwendig und die DINO-Modelle können mit großen, unbeschrifteten Bilddatensätzen trainiert werden.
Video: Meta
DINOv2 ist ein Baustein für alle Computer-Vision-Aufgaben
„DINOv2 bietet leistungsfähige Merkmale, die direkt als Input für einfache lineare Klassifikatoren verwendet werden können“, sagt Meta. Dies macht DINOv2 zu einem flexiblen und vielseitigen Werkzeug für eine Vielzahl von Computer-Vision-Aufgaben, von visuellen Aufgaben auf Bildebene (Bildklassifikation, Instanzensuche, Videoverständnis) bis hin zu visuellen Aufgaben auf Pixelebene (Tiefenschätzung, semantische Segmentierung).
Video: Meta
Laut Meta könnten die DINOv2-Modelle für verschiedene Anwendungen nützlich sein, z.B. für die Kartierung von Wäldern mit dem World Resources Institute, für die Schätzung von Tierdichten und -häufigkeiten und für die biologische Forschung, z.B. in der Zellmikroskopie.
Für das Training sammelte Meta 1,2 Milliarden Bilder und filterte und balancierte den Datensatz. Am Ende wurde DINOv2 so mit 142 Millionen Bildern trainiert. Wie der Vorgänger setzt auch DINOv2 auf Vision Transformers.
Meta will DINOv2 mit großen Sprachmodellen verknüpfen
DINOv2 ergänzt Metas Arbeiten im Bereich des maschinellen Sehens, insbesondere „Segment Anything„, ein kürzlich veröffentlichtes Modell für die Zero-Shot-Bildsegmentierung mit Prompt-Fähigkeiten. Meta sieht DINOv2 dagegen als einen Baustein, der mit anderen Klassifikatoren verknüpft werden kann und so in vielen Bereichen außerhalb der Segmentierung eingesetzt werden kann.
Das Unternehmen veröffentlicht den Code und einige Modelle der DINOv2-Familie. Das Unternehmen plant nun, DINOv2 in ein komplexeres KI-System zu integrieren, das mit großen Sprachmodellen interagieren kann. „Ein visuelles Grundgerüst, das reichhaltige Informationen über Bilder liefert, wird es komplexen KI-Systemen ermöglichen, Bilder auf eine tiefere Weise zu interpretieren, als sie lediglich mit einem einzigen Satz Text zu beschreiben.“
Modelle wie CLIP, die mit Bild-Text-Paaren trainiert würden, seien letztlich durch die Bildunterschriften begrenzt. Mit DINOv2 gäbe es keine solchen eingebauten Beschränkungen.
Mehr Informationen gibt es auf der Projektseite. Dort gibt es auch Demos für DINOv2. Code und Checkpoints gibt es auf Github.