Google stellt mit einem riesigen Vision Transformer einen neuen Rekord im ImageNet-Benchmark auf.
Im Herbst 2020 zeigten Google-Forscher, dass KI-Bildanalyse mit sogenanten Transformer-Modellen (Erklärung) prinzipiell möglich ist: Der Vision Transformer (ViT) verarbeitet beim KI-Training Bilder in mehreren Abschnitten und sagt fehlende Bildabschnitte voraus. So entwickelt das System ein Verständnis für die Inhalte eines Bildes.
Die Forscher trainierten unter anderem ein 632 Millionen Parameter großes Transformer-Modell (ViT-Huge) mit 300 Millionen Bildern, das sich in fast allen Bild-Benchmarks an die Leistung der besten Bilderkennungssysteme annäherte.
Transformer-Systeme beweisen sich in der KI-Praxis
Bisherige Erfahrungen aus der Arbeit mit Transformern bei der Verarbeitung natürlicher Sprache zeigen, dass Transformer-Systeme üblicherweise mit mehr Daten und größeren Modellen besser abschneiden. In einer neuen Forschungsarbeit demonstrieren Google-Forscher nun, dass dieses Verhältnis auch für die Vision Transformer gilt.
Die Forscher des Google Brain Teams aus Zürich haben mehrere ViT-Modelle trainiert, um Daten über Performance, benötigte Rechenleistung und Trainingsverlauf zu sammeln. Das größte Modell ViT-G/14 kommt auf knapp zwei Milliarden Parameter, wurde mit drei Milliarden Bildern trainiert und erreicht nach zusätzlichem Training mit dem ImageNet-Datensatz im ImageNet-Benchmark einen neuen Bestwert von 90,45 Prozent Top-1-Genauigkeit.
Es liegt mit diesem Ergebnis knapp 0,1 Prozentpunkte vor dem ViT-Modell ViT-MoE-15B. Das 2012 für den ImageNet-Moment verantwortliche AlexNet liegt mittlerweile auf Platz 415 der Bestenliste mit einer Genauigkeit von 63,3 Prozent. Der ImageNet-Moment gilt als Beweis, dass Deep Learning für maschinelle Lernaufgaben nützlich ist.
Große ViT-Modelle sind Few-Shot-Lerner
Die Forscher testeten außerdem die Few-Shot-Fähigkeiten (Erklärung) ihres ViT-Modells. Bei Few-Shot-Lernmethoden soll ein vortrainiertes KI-Modell anhand weniger Beispiele eine neue oder erweiterte Fähigkeit lernen und so flexibler generalisieren.
Ein mit drei Milliarden Bildern vortrainiertes ViT-G/14 trainierten die Forscher mit zehn Beispielbildern pro ImageNet-Kategorie nach. Das entspricht knapp einem Prozent der üblicherweise für das KI-Training verwendeten ImageNet-Daten.
ViT-G/14 erreichte trotz der wenigen Beispiele eine Top-1-Genauigkeit von 84,86 Prozent und gehört damit zu den Top 80 Systemen im Benchmark. Das Modell der Forscher zeigt so deutlich, dass ein großes Transformer-Modell auch in der Bildanalyse über Few-Shot-Fähigkeiten verfügt und so schnell Muster in bisher ungesehenen Bildern lernen kann. Das Resultat zeige, dass sich größere KI-Modelle lohnen, wenn zusätzliche Rechenleistung verfügbar ist, schreiben die Forscher.
Noch größere Transformer-Modelle sind für die Zukunft also zu erwarten und könnten eines Tages ein Bildanalyse-System hervorbringen, das für vielfältige Aufgaben mit nur wenigen Beispielen spezialisiert werden kann.
Via: Arxiv; Titelbild: Google