Nach Google und OpenAI zeigt jetzt auch Facebook, dass die Zukunft der Bildanalyse in Transformern liegen könnte.
Im November 2020 stellte Google den Vision Transformer vor, ein neuronales Netz, das mit den aus der Sprachverarbeitung bekannten Transformer-Blöcken Bilder verarbeitet. Die Google-Forscher konnten in ihren Tests zeigen, dass die trainierten ViT-Modelle etwa für die Bildanalyse einsetzbar sind.
Anders als bisherige Bildanalyse-KIs wurde ViT nicht überwacht trainiert. Die Google-Forscher trainierten die KI stattdessen unüberwacht mit Bildausschnitten, in denen die KI eigenständig nach Mustern suchte. Jedes Bild aus dem 300 Millionen starken JFT-300M-Datensatz wurde dafür in Abschnitte von 14 x 14 bis 16 x 16 Pixel aufgeteilt.
Beim anschließenden KI-Training musste ViT den Inhalt einzelner, verdeckter Bildausschnitte anhand der sichtbaren Bildausschnitte vorhersagen. Diese „kontrastives Lernen“ genannte Trainingsmethode kommt auch beim Training von Transformer-Modellen wie OpenAIs GPT-3 zum Einsatz. Dort muss die KI statt Bildausschnitten Wörter vorhersagen.
DINO statt kontrastives Lernen
In einer neuen Forschungsarbeit zeigt jetzt Facebooks AI Lab eine alternative Variante, Vision Transformer zu trainieren: „Self-Distillation with no labels“ (DINO).
Anders als Google teilen die Facebook-Forscher die Trainingsbilder des hier genutzten ImageNet-Datensatzes nicht in ein Gittermuster auf. Stattdessen extrahieren sie zufällige Bildausschnitte unterschiedlicher Größe, die sie zusätzlich mit Farbänderungen, Drehung oder Filtern modifizieren.
Zwei unterschiedliche Netze bekommen dann Bildausschnitte des gleichen Bildes zu sehen, etwa ein kleines Bild, das ein Katzenohr zeigt und ein größeres, das Teile des Katzenkörpers enthält. Das sogenannte Studenten-Netz muss anschließend lernen, sich den Vorhersagen des Lehrer-Netzes anzupassen.
Da die Trainingsbilder immer bestimmte Objekte wie Katzen, Schiffe oder Hunde enthalten, lernt das Studenten-Netz, seine Vorhersage an diesen Objekten zu orientieren, da sie auch in anderen Bildausschnitten sichtbar sind. Im Laufe des Trainings repräsentiert das Netz alle möglichen Objekte.
ViT mit DINO zieht an klassischen Architekturen vorbei
Die Facebook-Forscher haben die DINO-Trainingsmethode mit unterschiedlichen Netz-Architekturen getestet, etwa ResNet50 oder Facebooks Data-Efficient Transformers. Die besten Ergebnisse erzielten die Forscher jedoch mit den Vision Transformern.
In Tests konnte Facebook zeigen, dass die mit DINO trainierten ViT-Modelle Objekte zuverlässig ohne spezialisiertes Training mit Labels erkennen und auf Videos selbst hinter Verdeckungen tracken können. Im Vergleich mit Googles ViT-Modell von 2020 schneidet Facebooks Variante im ImageNet-Test ohne Feineinstellung acht Punkte besser ab (72 vs. 80,1 Punkte).
Bei einem Blick in die Repräsentationen des ViT-Netzes fällt außerdem auf, dass die KI ähnliche Objekte in Clustern anordnet, etwa verschiedene Hunderassen oder unterschiedliche Fahrzeuge. Facebooks Forscher sehen das als Hinweis, dass mit Transformern auch in der Bildanalyse ähnlich eindrucksvolle Systeme wie in der Sprachverarbeitung trainiert werden können.
Zu ähnlichen Ergebnissen kamen auch Forscher von OpenAI mit CLIP und DALL-E sowie Deepmind mit Perceiver. Facebook möchte als Nächstes ein riesiges ViT-Modell mit der DINO-Methode und zufälligen Bildern trainieren. Ein solches Modell könnte noch leistungsstärker sein und Repräsentationen für deutlich mehr Objekte lernen.
Titelbild: Facebook | Via: Facebook, Arxiv