Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Google zeigt eine neue Methode, die Mixture-of-Experts-Modelle verbessert und ihre Trainingsdauer im Schnitt halbiert.

Die Skalierung von Modellgröße, Trainingsdaten und anderen Faktoren hat zu großen Fortschritten in der KI-Forschung geführt, etwa in der Verarbeitung natürlicher Sprache oder der Bildanalyse und -generierung. Forschende konnten bereits mehrfach eine direkte Beziehung zwischen Skalierung dieser Faktoren und der Modellqualität nachweisen.

Immer größere Modelle mit hunderten Milliarden oder sogar Billionen von Parametern sind daher in der Entwicklung. Um die Trainingseffizienz solcher gigantischen Netze zu erhöhen, setzen einige KI-Unternehmen vermehrt auf sogenannte "Sparse Models".

In diesen Modellen werden für die Bearbeitung etwa eines Token in einem Sprachmodell nur Teile des Netzes genutzt. In klassischen "Dense Models" wie GPT-3 wird jede Verarbeitung durch das komplette Netz durchgeführt.

Anzeige
Anzeige

Google verfolgt mit dem Pathways-Projekt die Zukunft Künstlicher Intelligenz, die einmal live neue Aufgaben lernen und zahlreiche Modalitäten verarbeiten können soll. Zentrales Element von Pathways ist die Skalierung - und damit auch Sparse Modelling. In einer neuen Arbeit zeigt Google einen Fortschritt, der das Training der bei Sparse Models verbreiteten Mixture-of-Experts-Architektur deutlich verbessert.

Google forscht seit über zwei Jahren an MoE-Architekturen

Im August 2020 zeigte Google GShard, eine Methode für die Parallelisierung von KI-Berechnungen. Die Methode erlaubte erstmals die Implementierung eines 600 Milliarden Parameter großen "sparse" trainierten Mixture-of-Experts-Modells (MoE-Transformer).

Innerhalb eines Transformer-Moduls gibt es üblicherweise ein einzelnes Feed Forward Network, das Informationen wie Token weiterleitet. In einem MoE-Transformer gibt es mehrere solcher Netze - die namensgebenden Experten. Statt alle Token durch ein einziges Netz zu führen, verarbeiten die Experten nur bestimmte Token.

In dem mit GShard trainierten MoE-Transformer wird üblicherweise jedes Token von zwei Experten verarbeitet.  Dahinter steht die Intuition, dass die Künstliche Intelligenz nicht erfolgreich lernen kann, wenn es einen Experten nicht mit mindestens einem weiteren Experten vergleichen kann.

Im Switch Transformer weist ein Router Expertennetzen Token zu. | Bild: Google

Im Januar 2021 stellten Google-Forschende dann das 1,6 Billionen große "Switch Transformer"-Modell vor, ebenfalls ein sparse trainierter MoE-Transformer. Ein wesentlicher Unterschied: Statt zwei oder mehrerer Experten-Netze pro Token leitet ein Router die Informationen immer nur an ein Netz weiter. Google vergleicht diesen Prozess mit einem Schalter. Daher der Name des KI-Modells.

Empfehlung

In der Arbeit zeigte Google, dass der Switch Transformer schneller trainiert werden kann und bessere Ergebnisse erzielt als bisherige Ansätze.

Konventionalle MoE-Architekturen neigen zu Ungleichgewichten

Nun hat Google eine neue Arbeit veröffentlicht, die weitere Verbesserungen für das MoE-System bringt. Bestehende Varianten wie Switch Transformer haben laut der Autor:innen einige Nachteile: So können bestimmte Experten-Netze während des Trainings mit einem Großteil der Tokens trainiert werden, sodass nicht alle Experten ausreichend genutzt werden.

Das führe zu einem Ungleichgewicht, bei der übermäßig ausgelastete Experten-Netze Token nicht verarbeiten, um zu vermeiden, dass ihnen der Speicher ausgeht. In der Praxis führe das zu schlechteren Ergebnissen.

Zudem sei die Latenz des gesamten Systems durch den am meisten belasteten Experten bestimmt. Bei einem Ungleichgewicht gehen so auch einige der Vorteile der Parallelisierung verloren.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Es sei außerdem wünschenswert, dass ein MoE-Modell seine Rechenressourcen flexibel auf der Grundlage der Komplexität der Eingabe verteilt. Bislang wird jedem Token immer die gleiche Anzahl an Experten zugewiesen - im Falle von GShard sind das zwei, beim Switch Transformer einer.

Google zeigt Mixture-of-Experts mit Expert Choice Routing

Als Ursache für diese Nachteile identifiziert Google die gewählte Routing Strategie. Konventionelle MoE-Modelle nutzten "Token-Choice Routing", das selbstständig eine gewisse Anzahl Experten für jedes Token auswählt.

Google schlägt dagegen einen Experten für die Experten vor: Im sogenannten "Expert Choice Routing" wählt der Router eine gewisse Anzahl von Token für jedes Experten-Netz aus. Damit kann die Zuweisung flexibler auf die Komplexität der vorhandenen Token reagieren.

Mit Expert Choice Routing weist der Router Experten-Netzen verschiedene Token zu. | Bild: Google

Laut Google erreiche die Methode trotz ihrer Einfachheit durch die Expertenwahl einen perfekten Lastausgleich. Sie ermögliche zudem eine flexiblere Zuweisung von Modellleistung, da die Token von einer variablen Anzahl von Experten verarbeitet werden können.

In einem Vergleich mit Switch Transformer und GShard zeigt Google, dass die neue Methode die Trainingszeit mehr als halbieren kann. Bei gleichem Rechenaufwand zeige sie zudem eine höhere Leistung beim Nachtraining von elf ausgewählten Aufgaben in den Benchmarks GLUE und SuperGLUE. Bei geringeren Aktivierungskosten übertreffe die Methode zudem das dichte T5-Modell in sieben der elf Aufgaben.

Das Team zeigt auch, dass ein Großteil der Token durch die Methode zu einem oder zwei Experten geleitet werden, 23 Prozent zu drei oder vier und nur etwa 3 Prozent zu vier oder mehr Experten. Das bestätige die Hypothese, dass das Expert Choice Routing lernt, den Token eine variable Anzahl von Experten zuzuordnen.

Unser Ansatz für Expert Choice Routing ermöglicht heterogene MoE mit unkomplizierten algorithmischen Innovationen. Wir hoffen, dass dies zu weiteren Fortschritten in diesem Bereich sowohl auf der Anwendungs- als auch auf der Systemebene führen kann.

Google

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Mixture-of-Experts-Modelle sind eine wirksame Methode zur Erhöhung der Modellparameter von KI-Netzen. Bei diesem Verfahren werden nur bestimmte Teile eines neuronalen Netzes aktiviert, abhängig von den Daten wie etwa Token.
  • Die Token werden von einem Router weitergeleitet. Häufig verwendete Routing Strategien führen jedoch zu Problemen wie über- oder untertrainierte Experten-Netze, wodurch etwa ein Teil der Token aus Speichergründen nicht verarbeitet wird.
  • Google zeigt das Expert Choice Routing, bei dem ein Experten-Router variabel Token zu verschiedenen Experten-Netzen in der Transformer-Architektur weiterleitet. Die Trainingszeit für ein Modell kann es so im Schnitt halbieren, dennoch übertrifft es in Benchmarks andere MoE-Modelle.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!