Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Große Sprachmodelle benötigen viel Speicher und Rechenleistung. Durch Sparsification lässt sich beides verringern. 

Große Sprachmodelle aus der GPT-Familie sind zum Standard in der maschinellen Verarbeitung natürlicher Sprache geworden. Ihre Einsatzfähigkeit ist aufgrund ihrer Größe und der benötigten Rechenleistung allerdings beschränkt.

GPT-175B umfasst beispielsweise 175 Milliarden Parameter, die mindestens 320 Gigabyte Speicherplatz beanspruchen. Für den Betrieb sind daher wenigstens fünf A100-GPUs mit je 80 Gigabyte Speicher erforderlich.

So gut wie alle vorhandenen Ansätze zur Kompression setzen auf Quantisierung, die die Genauigkeit der numerischen Repräsentation der einzelnen Gewichte verringert. Das verkleinert die Netze, kann aber ihre Leistung reduzieren, da sie Informationen nicht präzise darstellen.

Anzeige
Anzeige

One-Shot-Beschneiden ohne Genauigkeitsverlust

Eine alternative Methode stellt das "Pruning", also Beschneiden, dar. Hier wird das Modell kompakter, indem redundante oder weniger wichtige Informationen entfernt werden. Der Ansatz ist nicht neu und gilt als brauchbar, die Genauigkeit leidet jedoch in der Regel.

Dieser Verlust muss erst durch kostspieliges Neutrainieren des Modells wieder ausgeglichen werden. Bisherige One-Shot-Pruning-Methoden sind zu zeitaufwändig, um sie bei sehr großen Modellen mit Milliarden von Parametern anzuwenden.

Eine Lösung für dieses Problem soll SparseGPT darstellen, eine Methode, die Elias Frantar und Dan Alistarh vom Institute of Science and Technology Austria in einem neuen Paper namens "Massive Language Models Can Be Accurately Pruned in One-Shot" vorstellen.

SparseGPT ist laut der Autor:innen die erste präzise One-Shot-Pruning-Methode, die bei Modellen mit zehn bis 100 Milliarden Parametern effizient funktioniere.

Um 50 bis 60 Prozent kleiner, selbst bei 175 Milliarden Parametern

Das Beschneiden mit SparseGPT dauere selbst bei den größten öffentlich zugänglichen GPT-Modellen, namentlich OPT-175B und BLOOM-176B, mit einem einzigen Grafikprozessor nur rund vier Stunden, so das Team.

Empfehlung

Dabei sei deutlich geworden, dass größere Modelle leichter zu verkleinern sind: Die Forschenden konnten die Modelle durch SparseGPT um 50 bis 60 Prozent verschlanken. Selbst bei einer so hohen Sparsity gäbe es etwa bei OPT-175B praktisch keinen Genauigkeitsverlust gegenüber dem dichten Modell. Das heißt: Rund 100 Milliarden Parameter konnten bei Inferenz ignoriert werden.

Bis zu 90 Prozent Sparsification durch Pruning und Finetuning?

"Wir vermuten, dass mit progressivem Pruning und Finetuning mindestens 80 bis 90 Prozent Sparsification erreicht werden können. Wir planen zudem, die Anwendbarkeit unserer Ansätze während des Trainings zu untersuchen, um die Rechenkosten für das Vortraining dieser massiven Modelle zu reduzieren", erläutert das Team die nächsten Schritte.

Sparse-Modelling könnte also in Zukunft aktuell große Modelle effizienter laufen lassen – und noch größere Modelle ermöglichen.

Dieser Ansicht sind auch das deutsche KI-Startup Aleph Alpha und der britische KI-Chiphersteller Graphcore. Die beiden Unternehmen hatten erst im November 2022 einen Sparsification-Ansatz für schlankere Sprachmodelle gezeigt.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende stellen SparseGPT vor, eine Methode, die die nötigen Gewichte großer Sprachmodelle um mehr als die Hälfte reduziert, ohne ihre Genauigkeit zu verringern.
  • Das Team testete SparseGPT an den größten verfügbaren Modellen mit rund 175 Milliarden Parametern.
  • Das Team vermutet weiter, dass es mit einer Kombination mehrerer Ansätze die Netze um bis zu 90 Prozent verkleinern könnte.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!