Switch Transformer: Googles riesige Sprach-KI hat 1,6 Billionen Parameter

16. Januar 2021

KI-Forscher von Google haben mit einer modifizierten Transformer-Architektur erstmals ein Sprachmodell mit mehr als einer Billion Parametern trainiert.

Viel hilft viel – das gilt aktuell bei Sprach-KIs: OpenAIs GPT-3 erschien im Mai 2020 mit 175 Milliarden Parametern. Das ist hundertmal größer als der Vorgänger GPT-2. Mit dem Parameterzuwachs kamen neue Möglichkeiten wie spannendere Geschichten, die Imitation berühmter Personen, Code-Generierung und ein bisschen Mathe.

Nur zwei Monate nach GPT-3 stellte Google eine neue Übersetzungs-KI mit 600 Milliarden Parametern vor. Der „M4“-Ansatz (Massively Multilingual, Massive Neural Machine Translation) erlaubt Googles KI, knapp über 100 Sprachen zu übersetzen.

Möglich ist das durch das neue Framework „GShard“, das riesige neuronale Netze wie Googles Übersetzungs-KI über mehrere KI-Chips aufteilt, damit etwa die Speichergrenzen einzelner Chips umgeht und somit das umfassende KI-Training überhaupt erst ermöglicht.

Expertennetze im Transformer

GShard erlaubt den Google-Forschern, das für Sprachaufgaben Standard gewordene Transformer-Modul (Erklärung) zu modifizieren. Üblicherweise wird diese Architektur skaliert, indem mehrere Transformer-Schichten übereinandergestapelt werden. Google nutzte jedoch einen anderen Ansatz: Die Forscher bauen ihre KI-Architektur in die Breite.

Ein Transformer-Modul hat üblicherweise ein einzelnes weiterleitendes neuronales Netzwerk (feedforward neural network), das alle durch den Transformer laufenden Informationen weiterleitet. Google ersetzt dieses Netz durch eine ganze Reihe von Netzen, die jeweils nur spezifische Informationen weiterleiten – sogenannte Expertennetze.

Google tauft diese Architektur passend „Mixture-of-Experts“-Transformer (kurz: MoE Transformer). Die Idee für solche Expertennetzwerke stammt bereits aus den 90ern.

Auf dem Weg zum Billionen-Modell

Durch die Verbreiterung hatte das größte Sprachmodell trotz lediglich 36 Transformer-Schichten ganze 600 Milliarden Parameter. OpenAIs GPT-3 kommt gerade mal auf 175 Milliarden Parametern – bei 96 Schichten.

Parallel zum 600-Milliarden-Modell testete Google bereits ein Modell mit mehr als einer Billion Parametern – hatte aber noch Probleme beim KI-Training. Jetzt hat Google diese Probleme gelöst und ein Sprachmodell mit ganzen 1,6 Billionen Parametern vorgestellt. Möglich wird das riesige „Switch-C“ getaufte Modell durch eine Modifikation des zuvor erwähnten MoE-Transformers.

Google legt den Hebel um

Im MoE-Transformer werden die Informationen, die in das Netz kommen, immer von mindestens zwei Expertennetzen weiterverarbeitet. Dahinter steht die Intuition, dass die Künstliche Intelligenz nicht erfolgreich lernen kann, wenn es einen Experten nicht mit mindestens einem weiteren Experten vergleichen kann.

Für ihr neues Sprachmodell brechen die Google-Forscher mit dieser Intuition und leiten Informationen immer nur an einen Experten weiter. Im Training bilden sich diese Experten aus und die KI lernt, welche Experten welche Informationen verarbeiten.

Je nach Information legt ein „Router“ genannter Baustein die Schalter um und bestimmt, zu welchem Experten welche Information fließt. Google tauft den neuen Ansatz daher den Switch-Transformer.

Der Router reduziert außerdem die Präzision des Inputs (float32 zu bfloat16), bevor dieser weitergleitet wird. Dadurch ist das Training des Netzes weniger rechenintensiv.

Switch-C trainiert mit 750 Gigabyte Text

Das fertige Switch-C-Modell hat 32 Transformer-Module in 15 Schichten und 2.048 Expertennetze. Google baute außerdem kleinere Modelle (Switch-Base, Switch-Large, Switch-XXL).

Der Switch-Transformer erreicht die Leistung von Googles 13 Milliarden Parameter großem Sprachmodell T5-XXL in einem Viertel der Trainingszeit bei gleicher Trainingshardware.

Die Switch-Modelle wurde mit dem C4-Datensatz (Colossal Clean Crawled Corpus) trainiert, einer 750 Gigabyte großen Textsammlung aus Reddit, Wikipedia und anderen Internetquellen. Während des Trainings muss die KI Textpassagen vervollständigen, indem sie maskierte Wörter innerhalb des Satzes vorhersagt.

Dieser Ansatz wird häufig für Sprach-KIs verwendet, etwa für Googles BERT, die die Google-Suche verbessert, die T5-Modelle oder Microsofts DeBERTa, das kürzlich den anspruchsvollen Sprach-Benchmark SuperGLUE knackte.

Switch-Transformer bringt mehr Leistung - aber nicht immer

Die kleineren Switch-Modelle bringen im direkten Vergleich mit gleich großen T-5-Modellen konstant bessere Ergebnisse in Sprach-Benchmarks wie GLUE, SQuAD, SuperGLUE oder Winogrande (XL). Das zeigt, dass die Switch-Transformer mit ihren Expertennetzen schneller trainiert werden können und bessere Ergebnisse erzielen als bisherige Ansätze – ein klarer Fortschritt.

Das Billionen-Switch-C-Modell fällt hier jedoch hinter die Erwartungen zurück: Im SQuAD-Benchmark erreicht es lediglich 87,7 Punkte, das viermal kleinere Switch-XXL-Modell mit 395 Milliarden Parametern dagegen 89,6 Punkte.

Der Grund könnte laut Google im verwendeten Rechenaufwand pro Vorhersage liegen: Switch-XXL verwendet zehnmal so viele FLOPS pro Wortvorhersage (Token). Das Ergebnis suggeriere, dass es eine bisher nicht verstandene Abhängigkeit zwischen Feineinstellung des Netzwerks, FLOPS pro Token und Anzahl der Parameter gebe, so die Forscher.

Leistungssprung lässt sich auf kleinere Netze übertragen

Ein Teil des Vorsprungs der Switch-Modelle lässt sich auf kleinere neuronale Netze übertragen, zeigen die Autoren. Durch die gezielte Verkleinerung (Destillation) der riesigen KIs schaffen die Forscher bis zu 99 Prozent kleinere Varianten, die etwa 30 Prozent des Leitungssprungs der großen Modelle übernehmen. Diese Varianten sind klein genug, um auf einer einzelnen modernen GPU zu laufen.

Als Nächstes wollen die Forscher die Switch-Transformer auf neue Aufgaben anwenden, etwa die Bilderkennung. Multimodale Modelle, also KIs, die beispielsweise Text und Bild gleichzeitig verarbeiten, sind ebenfalls geplant.

Dass multimodale KI möglich ist, zeigte kürzlich OpenAI mit der bildgenerierenden KI DALL-E und der Bildanalyse CLIP. Die beeindruckenden Ergebnisse sind erst durch das multimodale Training möglich.

Via: Arxiv

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren