Inhalt
newsletter Newsletter
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Google stellt mit GLaM ein riesiges KI-Sprachmodell vor, das OpenAIs GPT-3-Leistung bei deutlich geringerem Energieverbrauch erreicht.

Große Sprachmodelle mit Transformer-Architektur gehören zu den erfolgreichsten KI-Technologien der letzten zwei Jahre. Vorreiter ist OpenAI mit dem beeindruckenden GPT-3-Modell, dem zahlreiche Alternativen folgten: Nvidias NeMo Megatron, AI21 Labs Jurassic-1 Jumbo, BAAIs Wu Dao 2.0 oder Europas OpenGPT-X gehören dazu, ebenso eine ganze Reihe an Modellen von Google.

Während diese Modelle beeindruckende Zero- und One-Shot-Fähigkeiten in einer ganzen Reihe von Sprachaufgaben bieten, benötigen sie für KI-Training und Interferenz viel Energie. Für bessere Modelle galt außerdem bisher: mehr Daten, mehr Parameter.

Mixture-of-Experts Transformer ermöglicht geringeren Energieverbrauch

Auf der Suche nach effizienteren Modellen wandten sich Google-Forschende bereits im August 2020 zur Mixture-of-Experts-Architektur (MoE). Bei dieser werden innerhalb eines Netzes zahlreiche untergeordnete Netzabschnitte als Spezialisten für bestimmte Inputs trainiert. So leitet üblicherweise in einem Transformer-Modul ein einzelnes Netz Informationen weiter. Googles Team ersetzte dieses einzelne Netz in der Künstlichen Intelligenz durch zahlreiche Experten-Netze.

Anzeige
Anzeige

Das Feed-Forward-Netz im Transformer wird durch zahlreiche auf bestimmte Inputs spezialisierte FFNs ersetzt. | Video: Google

In der größten Variante des sogenannten „Mixture-of-Experts“-Transformer (kurz: MoE Transformer) kommt das größte Modell mit 36 Schichten auf 600 Milliarden Parameter. OpenAIs GPT-3 hat dagegen 96 Schichten – kommt aber nur auf 175 Milliarden Parameter.

Da jedoch bei einer Anfrage an das Netz immer nur die zugehören Experten-Netze aktiviert werden, benötigen MoE Transformer weniger Energie als ihre klassischen Verwandten mit weniger Parametern. Zusammen mit besserer Hardware können solche Modelle laut einer Studie von Google und der Universität Berkeley die CO2e-Emissionen von starken Sprach-KIs um das 100- bis 1000-fache senken.

Googles neues Sprachmodell hat 1,2 Billionen Parameter

Aufbauend auf den MoE Transformer stellt Google jetzt das "Generalist Language Model" (GLaM) vor. GLaM hat 1,2 Billionen Parameter und 32 MoE-Schichten mit jeweils 64 Experten-Netzen. Trainiert wurde GLaM mit einem 1,6 Billionen Token großen Textdatensatz. GPT-3 dagegen wurde mit einem 499 Milliarden Token großen Datensatz trainiert, hat also deutlich weniger Input bekommen. Alle Texte im GLaM-Trainingsdatensatz wurden automatisiert auf Qualität geprüft und sollen auf dem Niveau von Wikipedia-Artikeln oder Büchern liegen.

Laut Google übertrifft oder erreicht GLaM die Leistung von GPT-3 in fast 80 Prozent der Zero-Shot-Aufgaben und fast 90 Prozent der One-Shot-Aufgaben bei etwa halbem Energieverbrauch pro Abruf. Mit Nvidias neuem 530 Milliarden Megatron-Turing-Modell kann GLaM in sieben Aufgaben mithalten bei fünffach niedrigerem Energieverbrauch.

Empfehlung

Beim Training benötigt GLaM dagegen mehr Rechenleistung pro Token als GPT-3, verbraucht aber aufgrund effizienter Software und Googles TPUv4-Chips weniger als die Hälfte der Energie.

Google hofft, mit dem Ergebnis die Erforschung von rechen- und damit energieeffizienten Sprachmodellen voranzutreiben. GLaM erziele konkurrenzfähige Ergebnisse und sei ein effizienteres Modell als traditionell trainierte Sprachmodelle. Bisher hat Google das Modell nicht veröffentlicht.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Weiterlesen über Künstliche Intelligenz:

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!