Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
Künstliche Intelligenz und Robotik | DEEP MINDS #15

Metas DINOv2 ist ein Foundation-Modell für Computer Vision. Das Unternehmen zeigt seine Stärken und will es mit großen Sprachmodellen verknüpfen.

Im Mai 2021 präsentierten die KI-Forscher von Meta DINO (Self-Distillation with no labels), ein selbst-überwacht trainiertes KI-Modell für Bildaufgaben wie Klassifikation oder Segmentierung. Mit DINOv2 veröffentlicht Meta nun eine deutlich verbesserte Version.

Wie DINO ist auch DINOv2 ein mit selbst-überwachtem Lernen trainiertes Computer Vision Modell und liegt laut Meta in allen getesteten Aufgaben auf dem Niveau der derzeit besten spezialisierten Systeme oder übertrifft diese sogar. Aufgrund des selbst-überwachten Lernens sind keine gelabelten Daten notwendig und die DINO-Modelle können mit großen, unbeschrifteten Bilddatensätzen trainiert werden.

Video: Meta

Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung

DINOv2 ist ein Baustein für alle Computer-Vision-Aufgaben

„DINOv2 bietet leistungsfähige Merkmale, die direkt als Input für einfache lineare Klassifikatoren verwendet werden können“, sagt Meta. Dies macht DINOv2 zu einem flexiblen und vielseitigen Werkzeug für eine Vielzahl von Computer-Vision-Aufgaben, von visuellen Aufgaben auf Bildebene (Bildklassifikation, Instanzensuche, Videoverständnis) bis hin zu visuellen Aufgaben auf Pixelebene (Tiefenschätzung, semantische Segmentierung).

Video: Meta

Laut Meta könnten die DINOv2-Modelle für verschiedene Anwendungen nützlich sein, z.B. für die Kartierung von Wäldern mit dem World Resources Institute, für die Schätzung von Tierdichten und -häufigkeiten und für die biologische Forschung, z.B. in der Zellmikroskopie.

Für das Training sammelte Meta 1,2 Milliarden Bilder und filterte und balancierte den Datensatz. Am Ende wurde DINOv2 so mit 142 Millionen Bildern trainiert. Wie der Vorgänger setzt auch DINOv2 auf Vision Transformers.

Meta will DINOv2 mit großen Sprachmodellen verknüpfen

DINOv2 ergänzt Metas Arbeiten im Bereich des maschinellen Sehens, insbesondere „Segment Anything„, ein kürzlich veröffentlichtes Modell für die Zero-Shot-Bildsegmentierung mit Prompt-Fähigkeiten. Meta sieht DINOv2 dagegen als einen Baustein, der mit anderen Klassifikatoren verknüpft werden kann und so in vielen Bereichen außerhalb der Segmentierung eingesetzt werden kann.

Empfehlung

Das Unternehmen veröffentlicht den Code und einige Modelle der DINOv2-Familie. Das Unternehmen plant nun, DINOv2 in ein komplexeres KI-System zu integrieren, das mit großen Sprachmodellen interagieren kann. „Ein visuelles Grundgerüst, das reichhaltige Informationen über Bilder liefert, wird es komplexen KI-Systemen ermöglichen, Bilder auf eine tiefere Weise zu interpretieren, als sie lediglich mit einem einzigen Satz Text zu beschreiben.“

Modelle wie CLIP, die mit Bild-Text-Paaren trainiert würden, seien letztlich durch die Bildunterschriften begrenzt. Mit DINOv2 gäbe es keine solchen eingebauten Beschränkungen.

Mehr Informationen gibt es auf der Projektseite. Dort gibt es auch Demos für DINOv2. Code und Checkpoints gibt es auf Github.

Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta veröffentlicht DINOv2, eine Familie selbst-überwacht trainierter Computer-Vision-Modelle, die zahlreiche Aufgaben wie Tiefenschätzung oder Segmentierung übernehmen können.
  • Die DINOv2-Modelle wurden mit über 140 Millionen Bildern trainiert und Meta betrachtet sie als Foundation-Modelle, die mit anderen Klassifikatoren verknüpft werden können.
  • Meta will DINOv2 mit großen Sprachmodellen verknüpfen, um leistungsfähigere Modelle für die Analyse und Verarbeitung von Bildern zu schaffen.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!