Google stellt riesiges KI-Sprachmodell mit geringem Energieverbrauch vor

12. Dezember 2021

Pexels

Google stellt mit GLaM ein riesiges KI-Sprachmodell vor, das OpenAIs GPT-3-Leistung bei deutlich geringerem Energieverbrauch erreicht.

Große Sprachmodelle mit Transformer-Architektur gehören zu den erfolgreichsten KI-Technologien der letzten zwei Jahre. Vorreiter ist OpenAI mit dem beeindruckenden GPT-3-Modell, dem zahlreiche Alternativen folgten: Nvidias NeMo Megatron, AI21 Labs Jurassic-1 Jumbo, BAAIs Wu Dao 2.0 oder Europas OpenGPT-X gehören dazu, ebenso eine ganze Reihe an Modellen von Google.

Während diese Modelle beeindruckende Zero- und One-Shot-Fähigkeiten in einer ganzen Reihe von Sprachaufgaben bieten, benötigen sie für KI-Training und Interferenz viel Energie. Für bessere Modelle galt außerdem bisher: mehr Daten, mehr Parameter.

Mixture-of-Experts Transformer ermöglicht geringeren Energieverbrauch

Auf der Suche nach effizienteren Modellen wandten sich Google-Forschende bereits im August 2020 zur Mixture-of-Experts-Architektur (MoE). Bei dieser werden innerhalb eines Netzes zahlreiche untergeordnete Netzabschnitte als Spezialisten für bestimmte Inputs trainiert. So leitet üblicherweise in einem Transformer-Modul ein einzelnes Netz Informationen weiter. Googles Team ersetzte dieses einzelne Netz in der Künstlichen Intelligenz durch zahlreiche Experten-Netze.

Das Feed-Forward-Netz im Transformer wird durch zahlreiche auf bestimmte Inputs spezialisierte FFNs ersetzt. | Video: Google

In der größten Variante des sogenannten „Mixture-of-Experts“-Transformer (kurz: MoE Transformer) kommt das größte Modell mit 36 Schichten auf 600 Milliarden Parameter. OpenAIs GPT-3 hat dagegen 96 Schichten – kommt aber nur auf 175 Milliarden Parameter.

Da jedoch bei einer Anfrage an das Netz immer nur die zugehören Experten-Netze aktiviert werden, benötigen MoE Transformer weniger Energie als ihre klassischen Verwandten mit weniger Parametern. Zusammen mit besserer Hardware können solche Modelle laut einer Studie von Google und der Universität Berkeley die CO2e-Emissionen von starken Sprach-KIs um das 100- bis 1000-fache senken.

Googles neues Sprachmodell hat 1,2 Billionen Parameter

Aufbauend auf den MoE Transformer stellt Google jetzt das "Generalist Language Model" (GLaM) vor. GLaM hat 1,2 Billionen Parameter und 32 MoE-Schichten mit jeweils 64 Experten-Netzen. Trainiert wurde GLaM mit einem 1,6 Billionen Token großen Textdatensatz. GPT-3 dagegen wurde mit einem 499 Milliarden Token großen Datensatz trainiert, hat also deutlich weniger Input bekommen. Alle Texte im GLaM-Trainingsdatensatz wurden automatisiert auf Qualität geprüft und sollen auf dem Niveau von Wikipedia-Artikeln oder Büchern liegen.

Laut Google übertrifft oder erreicht GLaM die Leistung von GPT-3 in fast 80 Prozent der Zero-Shot-Aufgaben und fast 90 Prozent der One-Shot-Aufgaben bei etwa halbem Energieverbrauch pro Abruf. Mit Nvidias neuem 530 Milliarden Megatron-Turing-Modell kann GLaM in sieben Aufgaben mithalten bei fünffach niedrigerem Energieverbrauch.

Beim Training benötigt GLaM dagegen mehr Rechenleistung pro Token als GPT-3, verbraucht aber aufgrund effizienter Software und Googles TPUv4-Chips weniger als die Hälfte der Energie.

Google hofft, mit dem Ergebnis die Erforschung von rechen- und damit energieeffizienten Sprachmodellen voranzutreiben. GLaM erziele konkurrenzfähige Ergebnisse und sei ein effizienteres Modell als traditionell trainierte Sprachmodelle. Bisher hat Google das Modell nicht veröffentlicht.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 16 % Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Google stellt riesiges KI-Sprachmodell mit geringem Energieverbrauch vor

Mixture-of-Experts Transformer ermöglicht geringeren Energieverbrauch

Googles neues Sprachmodell hat 1,2 Billionen Parameter

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.