Große Sprachmodelle benötigen viel Speicher und Rechenleistung. Durch Sparsification lässt sich beides verringern.
Große Sprachmodelle aus der GPT-Familie sind zum Standard in der maschinellen Verarbeitung natürlicher Sprache geworden. Ihre Einsatzfähigkeit ist aufgrund ihrer Größe und der benötigten Rechenleistung allerdings beschränkt.
GPT-175B umfasst beispielsweise 175 Milliarden Parameter, die mindestens 320 Gigabyte Speicherplatz beanspruchen. Für den Betrieb sind daher wenigstens fünf A100-GPUs mit je 80 Gigabyte Speicher erforderlich.
So gut wie alle vorhandenen Ansätze zur Kompression setzen auf Quantisierung, die die Genauigkeit der numerischen Repräsentation der einzelnen Gewichte verringert. Das verkleinert die Netze, kann aber ihre Leistung reduzieren, da sie Informationen nicht präzise darstellen.
One-Shot-Beschneiden ohne Genauigkeitsverlust
Eine alternative Methode stellt das "Pruning", also Beschneiden, dar. Hier wird das Modell kompakter, indem redundante oder weniger wichtige Informationen entfernt werden. Der Ansatz ist nicht neu und gilt als brauchbar, die Genauigkeit leidet jedoch in der Regel.
Dieser Verlust muss erst durch kostspieliges Neutrainieren des Modells wieder ausgeglichen werden. Bisherige One-Shot-Pruning-Methoden sind zu zeitaufwändig, um sie bei sehr großen Modellen mit Milliarden von Parametern anzuwenden.
Eine Lösung für dieses Problem soll SparseGPT darstellen, eine Methode, die Elias Frantar und Dan Alistarh vom Institute of Science and Technology Austria in einem neuen Paper namens "Massive Language Models Can Be Accurately Pruned in One-Shot" vorstellen.
SparseGPT ist laut der Autor:innen die erste präzise One-Shot-Pruning-Methode, die bei Modellen mit zehn bis 100 Milliarden Parametern effizient funktioniere.
Um 50 bis 60 Prozent kleiner, selbst bei 175 Milliarden Parametern
Das Beschneiden mit SparseGPT dauere selbst bei den größten öffentlich zugänglichen GPT-Modellen, namentlich OPT-175B und BLOOM-176B, mit einem einzigen Grafikprozessor nur rund vier Stunden, so das Team.
Dabei sei deutlich geworden, dass größere Modelle leichter zu verkleinern sind: Die Forschenden konnten die Modelle durch SparseGPT um 50 bis 60 Prozent verschlanken. Selbst bei einer so hohen Sparsity gäbe es etwa bei OPT-175B praktisch keinen Genauigkeitsverlust gegenüber dem dichten Modell. Das heißt: Rund 100 Milliarden Parameter konnten bei Inferenz ignoriert werden.
Bis zu 90 Prozent Sparsification durch Pruning und Finetuning?
"Wir vermuten, dass mit progressivem Pruning und Finetuning mindestens 80 bis 90 Prozent Sparsification erreicht werden können. Wir planen zudem, die Anwendbarkeit unserer Ansätze während des Trainings zu untersuchen, um die Rechenkosten für das Vortraining dieser massiven Modelle zu reduzieren", erläutert das Team die nächsten Schritte.
Sparse-Modelling könnte also in Zukunft aktuell große Modelle effizienter laufen lassen – und noch größere Modelle ermöglichen.
Dieser Ansicht sind auch das deutsche KI-Startup Aleph Alpha und der britische KI-Chiphersteller Graphcore. Die beiden Unternehmen hatten erst im November 2022 einen Sparsification-Ansatz für schlankere Sprachmodelle gezeigt.