Ein neues Forschungspapier zeigt, dass die aus der Computerlinguistik bekannten Transformer auch die besten aktuell möglichen Bildanalyse-KIs stellen. Bisher verwendete Architekturen dürften ausgedient haben.
Googles Transformer haben die Computerlinguistik revolutioniert: Alle großen Sprach-KIs der letzten zwei Jahre setzen auf die KI-Architektur, darunter Googles BERT, OpenAIs GPT-3 und Facebooks RoBERTa. Sie ermöglichen große Fortschritte bei Übersetzungen, Spracherkennung, Textgenerierung und anderen Bereichen der maschinellen Verarbeitung natürlicher Sprache.
Möglich ist das durch einen Mechanismus, den Entwickler schlicht "Aufmerksamkeit" nennen: Transformer verarbeiten ihre Eingabedaten im Kontext der gesamten Umgebungsdaten, etwa Wörter im Kontext eines Satzes.
Vorher eingesetzte Architekturen wie LSTM-Netzwerke ("Long short-term memory") konnten bis zu hundert Wörter an Kontext erfassen, doch die Kapazität aktueller Transformer liegt bei tausenden Wörtern und lässt sich mit zusätzlicher Rechenleistung weiter nach oben skalieren.
Sprach-Technologie für die Bildanalyse
Die Transformer-Architektur kann auch außerhalb der Sprachverarbeitung eingesetzt werden, denn für neuronale Netze sind letztlich alle Daten nur Vektoren, egal ob Wort oder Bild.
Einen ersten Versuch, Transformer für die Bilderkennung einzusetzen, unternahm im Mai 2020 Facebook. Die Bildanalyse-KI DETR (Detection Transformers) besteht wesentlich aus zwei Bausteinen: einem gefalteten neuronalen Netzwerk (Convolutional Neural Network), das Informationen aus dem Bild zieht, und einem Transformer-Block, der diese Informationen nutzt, um Objekte zu erkennen.
In Bildanalyse-Benchmarks erreicht DETR die Erkennungsleistung der weit verbreiteten Faster R-CNNs. Die KI sei jedoch simpler und flexibler, so die Facebook-Forscher.
Google AI Undercover
Funktioniert Bildanalyse mit Künstlicher Intelligenz ausschließlich mit Transformern? Eine neue Forschungsarbeit zeigt, dass CNNs wohl ausgedient haben: Offiziell befindet sich diese Forschungsarbeit noch in einer anonymen Bewertungsphase, die Ergebnisse könnten sich also ändern.
Die Autoren sind auf Grund der anonymen Bewertungsphase nicht bekannt, allerdings nutzten die anonymen Forscher den Google-exklusiven Bilddatensatz JFT-300M und Googles TPUv3-Cloudcomputer. Wer eins und eins zusammenzählen kann, erkennt schnell, dass hier Google seine neueste Forschung vorstellt.
Bildabschnitte statt Pixel zählen
Der Einsatz einer reinen Transformer-Architektur für die Bildanalyse ist problematisch, da der Aufmerksamkeitsmechanismus während des Trainings jedes Token innerhalb der Daten (etwa ein Wort in einem Paragraphen) mit jedem anderen Token verrechnet. Dadurch entsteht ein quadratischer Prozess, in dem der Transformer bei einem 500 Wörter langen Paragraphen 250.000 Rechenoperationen durchführt.
Die Anzahl an Rechenoperationen schnellt demnach stark nach oben, wenn der Transformer statt Wörtern Pixel verarbeiten soll. Bei einem niedrig aufgelösten Bild von 250 x 250 Pixeln müsste er schon 62.500² (3.906.250.000) Rechenoperationen ausführen. In der Praxis bedeutet das, dass die Hardwareanforderungen an Speicher und Rechenleistung für eine pixelgenaue Aufmerksamkeit selbst für Google unwirtschaftlich sind.
Stattdessen trainierten die Forscher ihren Vision Transformer (ViT) mit Bildausschnitten. Dafür teilten sie jedes Bild aus dem 300 Millionen starken Bilddatensatz JFT-300M in Abschnitte von 14 x 14 Pixeln für das größte Modell und 16 x 16 Pixeln für das kleinere Modell. Dadurch muss der Transformer lediglich neun oder ein paar mehr Bildabschnitte statt tausender Pixel verrechnen.
Transformer: Viel hilft viel
Die Forscher trainierten drei ViT-Modelle: ViT-Base mit 12 Schichten und 86 Millionen Parametern, ViT-Large mit 24 Schichten und 307 Millionen Parametern und ViT-Huge mit 32 Schichten und 632 Millionen Parametern. Nach dem Training erreicht ViT die Leistung der aktuell besten Bilderkennungssysteme.
Das größte Modell (ViT-Huge) schnitt in fast alle Benchmarks wie ImageNet ReaL, CIFAR-10 und CIFAR-100 oder VTAB am besten ab, gefolgt von ViT-Large. Ein zum Vergleich trainiertes riesiges ResNet (BiT-Large) war ungenauer und musste fast viermal länger trainiert werden. Google gibt die Trainingszeit in TPUv3-Tagen an: ViT-Heavy benötigte 2.500 TPUv3-Tage, ViT-Large 680 TPUv3-Tage und BiT-Large ganze 9.900 TPUv3-Tage.
Googles ViT zeigt, dass Transformer das Zeug haben, zum neuen Standard für alle möglichen Aufgaben im Deep Learning zu werden. In der Computerlinguistik sind sie schon Standard, in der Bildanalyse werden sie es wohl im nächsten Jahr, denn Googles ViT ist genauer und benötigt weniger Training als die bisherigen Spitzenmodelle.
Eine Spezialisierung der Architektur war nicht nötig: Google hat für die Bildanalyse-KI den gleichen Baustein genommen, der sich so auch in BERT oder GPT-3 findet.
Google will als nächsten Schritt die Transformer-Architektur auf andere Bildaufgaben anwenden und eine noch größere Version von ViT trainieren, "da das Leistungsmaximum mit dem größten Modell noch nicht erreicht zu sein scheint."
Langfristig könnten Transformer womöglich Bild- und Textanalyse vereinen und riesige KIs wie OpenAIs GPT-3 noch mächtiger werden lassen.
Via: Openreview