Google AI: Neues KI-Modell knackt Bildanalyse-Bestwert

19. Juni 2021

Google stellt mit einem riesigen Vision Transformer einen neuen Rekord im ImageNet-Benchmark auf.

Im Herbst 2020 zeigten Google-Forscher, dass KI-Bildanalyse mit sogenanten Transformer-Modellen (Erklärung) prinzipiell möglich ist: Der Vision Transformer (ViT) verarbeitet beim KI-Training Bilder in mehreren Abschnitten und sagt fehlende Bildabschnitte voraus. So entwickelt das System ein Verständnis für die Inhalte eines Bildes.

Die Forscher trainierten unter anderem ein 632 Millionen Parameter großes Transformer-Modell (ViT-Huge) mit 300 Millionen Bildern, das sich in fast allen Bild-Benchmarks an die Leistung der besten Bilderkennungssysteme annäherte.

Transformer-Systeme beweisen sich in der KI-Praxis

Bisherige Erfahrungen aus der Arbeit mit Transformern bei der Verarbeitung natürlicher Sprache zeigen, dass Transformer-Systeme üblicherweise mit mehr Daten und größeren Modellen besser abschneiden. In einer neuen Forschungsarbeit demonstrieren Google-Forscher nun, dass dieses Verhältnis auch für die Vision Transformer gilt.

Die Forscher des Google Brain Teams aus Zürich haben mehrere ViT-Modelle trainiert, um Daten über Performance, benötigte Rechenleistung und Trainingsverlauf zu sammeln. Das größte Modell ViT-G/14 kommt auf knapp zwei Milliarden Parameter, wurde mit drei Milliarden Bildern trainiert und erreicht nach zusätzlichem Training mit dem ImageNet-Datensatz im ImageNet-Benchmark einen neuen Bestwert von 90,45 Prozent Top-1-Genauigkeit.

Es liegt mit diesem Ergebnis knapp 0,1 Prozentpunkte vor dem ViT-Modell ViT-MoE-15B. Das 2012 für den ImageNet-Moment verantwortliche AlexNet liegt mittlerweile auf Platz 415 der Bestenliste mit einer Genauigkeit von 63,3 Prozent. Der ImageNet-Moment gilt als Beweis, dass Deep Learning für maschinelle Lernaufgaben nützlich ist.

Große ViT-Modelle sind Few-Shot-Lerner

Die Forscher testeten außerdem die Few-Shot-Fähigkeiten (Erklärung) ihres ViT-Modells. Bei Few-Shot-Lernmethoden soll ein vortrainiertes KI-Modell anhand weniger Beispiele eine neue oder erweiterte Fähigkeit lernen und so flexibler generalisieren.

Ein mit drei Milliarden Bildern vortrainiertes ViT-G/14 trainierten die Forscher mit zehn Beispielbildern pro ImageNet-Kategorie nach. Das entspricht knapp einem Prozent der üblicherweise für das KI-Training verwendeten ImageNet-Daten.

ViT-G/14 erreichte trotz der wenigen Beispiele eine Top-1-Genauigkeit von 84,86 Prozent und gehört damit zu den Top 80 Systemen im Benchmark. Das Modell der Forscher zeigt so deutlich, dass ein großes Transformer-Modell auch in der Bildanalyse über Few-Shot-Fähigkeiten verfügt und so schnell Muster in bisher ungesehenen Bildern lernen kann. Das Resultat zeige, dass sich größere KI-Modelle lohnen, wenn zusätzliche Rechenleistung verfügbar ist, schreiben die Forscher.

Noch größere Transformer-Modelle sind für die Zukunft also zu erwarten und könnten eines Tages ein Bildanalyse-System hervorbringen, das für vielfältige Aufgaben mit nur wenigen Beispielen spezialisiert werden kann.

Via: Arxiv; Titelbild: Google

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Google AI: Neues KI-Modell knackt Bildanalyse-Bestwert

Transformer-Systeme beweisen sich in der KI-Praxis

Große ViT-Modelle sind Few-Shot-Lerner

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.