Google stellt mit GLaM ein riesiges KI-Sprachmodell vor, das OpenAIs GPT-3-Leistung bei deutlich geringerem Energieverbrauch erreicht.
Große Sprachmodelle mit Transformer-Architektur gehören zu den erfolgreichsten KI-Technologien der letzten zwei Jahre. Vorreiter ist OpenAI mit dem beeindruckenden GPT-3-Modell, dem zahlreiche Alternativen folgten: Nvidias NeMo Megatron, AI21 Labs Jurassic-1 Jumbo, BAAIs Wu Dao 2.0 oder Europas OpenGPT-X gehören dazu, ebenso eine ganze Reihe an Modellen von Google.
Während diese Modelle beeindruckende Zero- und One-Shot-Fähigkeiten in einer ganzen Reihe von Sprachaufgaben bieten, benötigen sie für KI-Training und Interferenz viel Energie. Für bessere Modelle galt außerdem bisher: mehr Daten, mehr Parameter.
Mixture-of-Experts Transformer ermöglicht geringeren Energieverbrauch
Auf der Suche nach effizienteren Modellen wandten sich Google-Forschende bereits im August 2020 zur Mixture-of-Experts-Architektur (MoE). Bei dieser werden innerhalb eines Netzes zahlreiche untergeordnete Netzabschnitte als Spezialisten für bestimmte Inputs trainiert. So leitet üblicherweise in einem Transformer-Modul ein einzelnes Netz Informationen weiter. Googles Team ersetzte dieses einzelne Netz in der Künstlichen Intelligenz durch zahlreiche Experten-Netze.
In der größten Variante des sogenannten „Mixture-of-Experts“-Transformer (kurz: MoE Transformer) kommt das größte Modell mit 36 Schichten auf 600 Milliarden Parameter. OpenAIs GPT-3 hat dagegen 96 Schichten – kommt aber nur auf 175 Milliarden Parameter.
Da jedoch bei einer Anfrage an das Netz immer nur die zugehören Experten-Netze aktiviert werden, benötigen MoE Transformer weniger Energie als ihre klassischen Verwandten mit weniger Parametern. Zusammen mit besserer Hardware können solche Modelle laut einer Studie von Google und der Universität Berkeley die CO2e-Emissionen von starken Sprach-KIs um das 100- bis 1000-fache senken.
Googles neues Sprachmodell hat 1,2 Billionen Parameter
Aufbauend auf den MoE Transformer stellt Google jetzt das "Generalist Language Model" (GLaM) vor. GLaM hat 1,2 Billionen Parameter und 32 MoE-Schichten mit jeweils 64 Experten-Netzen. Trainiert wurde GLaM mit einem 1,6 Billionen Token großen Textdatensatz. GPT-3 dagegen wurde mit einem 499 Milliarden Token großen Datensatz trainiert, hat also deutlich weniger Input bekommen. Alle Texte im GLaM-Trainingsdatensatz wurden automatisiert auf Qualität geprüft und sollen auf dem Niveau von Wikipedia-Artikeln oder Büchern liegen.
Laut Google übertrifft oder erreicht GLaM die Leistung von GPT-3 in fast 80 Prozent der Zero-Shot-Aufgaben und fast 90 Prozent der One-Shot-Aufgaben bei etwa halbem Energieverbrauch pro Abruf. Mit Nvidias neuem 530 Milliarden Megatron-Turing-Modell kann GLaM in sieben Aufgaben mithalten bei fünffach niedrigerem Energieverbrauch.
Beim Training benötigt GLaM dagegen mehr Rechenleistung pro Token als GPT-3, verbraucht aber aufgrund effizienter Software und Googles TPUv4-Chips weniger als die Hälfte der Energie.
Google hofft, mit dem Ergebnis die Erforschung von rechen- und damit energieeffizienten Sprachmodellen voranzutreiben. GLaM erziele konkurrenzfähige Ergebnisse und sei ein effizienteres Modell als traditionell trainierte Sprachmodelle. Bisher hat Google das Modell nicht veröffentlicht.