Wissenschaftler der ETH Zürich haben eine Technik entwickelt, mit der sich KI-Sprachmodelle drastisch beschleunigen lassen.
Durch gezielte Modifikationen des Berechnungsprozesses des BERT-Modells konnten die Forschenden die Zahl der benötigten Neuronen auf 0,3 Prozent des ursprünglichen Wertes senken. Nur 12 von 4.095 Neuronen je Layer-Inferenz reichten aus, um mit "UltraFastBERT" ähnliche gute Ergebnisse wie das unveränderte Modell zu produzieren.
Bei Sprachmodellen auf Basis von Transformer-Architekturen ist ein Großteil der Parameter und Berechnungen in den sogenannten "Feedforward Networks" gebündelt. Die Forscher ersetzen diese Schichten durch spezielle "Fast Feedforward Networks" (FFF), die anders aufgebaut sind.
Dieser Komponentenwechsel hat zur Folge, dass aus Dense Matrix Multiplications (DMM) sogenannte Conditional Matrix Multiplications (CMM) werden. Anstatt jeden eingegebenen Parameter mit jedem Neuron zu multiplizieren, werden nur die jeweils für eine Aufgabe benötigten Neuronen durch binäre Entscheidungsbäume identifiziert und berechnet.
In Experimenten auf Basis des GLUE-Benchmarks für Sprachverständnis zeigte sich, dass UltraFastBERT trotz der stark verringerten Neuronennutzung bis zu 96 Prozent der Leistung des Originalmodells BERT lieferte.
Enormes Beschleunigungspotential bei großen Modellen
Vor allem bei sehr großen Sprachmodellen hat der Ansatz den Forschern zufolge ein enormes Beschleunigungspotenzial. So könnte beispielsweise beim OpenAI-Sprachmodell GPT-3 die Anzahl der benötigten Neuronen je Inferenz theoretisch auf nur 0,03 Prozent der bisherigen Menge reduziert werden.
Um die theoretischen Möglichkeiten auch in der Praxis auszuschöpfen, sind jedoch noch Optimierungen auf Softwareebene notwendig. Mit einer effizienten Implementierung der "Conditional Matrix Multiplication" wäre eine Beschleunigung um einen Faktor von 341 realisierbar, so die Wissenschaftler.
Das dafür benötigte Wissen sei jedoch nicht frei zugänglich:
Dense Matrix Multiplikation ist die am meisten optimierte mathematische Operation in der Geschichte der Informatik. Es wurden enorme Anstrengungen unternommen, um Speicher, Chips, Befehlssätze und Softwareroutinen zu entwickeln, die diese Operation so schnell wie möglich ausführen. Viele dieser Fortschritte wurden aufgrund ihrer Komplexität oder aus Gründen des Wettbewerbsvorteils geheim gehalten und dem Endnutzer nur über leistungsfähige, aber restriktive Programmierschnittstellen zugänglich gemacht. Daher sind wir, obwohl wir keine neue Hardware benötigen, immer noch gezwungen, hochgradige lineare algebraische Routinen zu kombinieren, um CMM zu implementieren, was zu einer Verringerung der Beschleunigung führt.
Aus dem Paper
In einem ersten Schritt schrieben die Forscher jedoch funktionierenden Code auf CPU-Level, der immerhin eine 78-fache Beschleunigung gegenüber der optimierten Baseline-Feedforward-Implementierung erreichte.
Auch im Bereich der Bildmodelle haben Forschende Durchbrüche gemacht, die benötigte Berechnungszeit drastisch zu verkürzen. SDXL Turbo von Stability AI reduziert die Bildgenerierungsschritte von 50 auf einen, bei nahezu gleichbleibender Qualität.