Skip to content

UltraFastBERT macht KI-Sprachmodelle drastisch schneller

Image description
Midjourney prompted by THE DECODER

Kurz & Knapp

  • ETH Zürich-Wissenschaftler stellen eine Methode vor, die KI-Sprachmodellen drastisch beschleunigt, indem sie "Fast Feedforward Networks" (FFF) verwenden.
  • Mit "UltraFastBERT" erreichen sie ähnlich gute Ergebnisse wie das unveränderte Modell, während sie nur 0,3 Prozent der ursprünglichen Neuronen pro Inferenz verwenden.
  • Die Methode hat ein enormes Beschleunigungspotenzial, insbesondere bei großen Sprachmodellen wie OpenAIs GPT-3, jedoch sind noch Optimierungen auf Softwareebene notwendig.

Wissenschaftler der ETH Zürich haben eine Technik entwickelt, mit der sich KI-Sprachmodelle drastisch beschleunigen lassen.

Durch gezielte Modifikationen des Berechnungsprozesses des BERT-Modells konnten die Forschenden die Zahl der benötigten Neuronen auf 0,3 Prozent des ursprünglichen Wertes senken. Nur 12 von 4.095 Neuronen je Layer-Inferenz reichten aus, um mit "UltraFastBERT" ähnliche gute Ergebnisse wie das unveränderte Modell zu produzieren.

Bei Sprachmodellen auf Basis von Transformer-Architekturen ist ein Großteil der Parameter und Berechnungen in den sogenannten "Feedforward Networks" gebündelt. Die Forscher ersetzen diese Schichten durch spezielle "Fast Feedforward Networks" (FFF), die anders aufgebaut sind.

Dieser Komponentenwechsel hat zur Folge, dass aus Dense Matrix Multiplications (DMM) sogenannte Conditional Matrix Multiplications (CMM) werden. Anstatt jeden eingegebenen Parameter mit jedem Neuron zu multiplizieren, werden nur die jeweils für eine Aufgabe benötigten Neuronen durch binäre Entscheidungsbäume identifiziert und berechnet.

In Experimenten auf Basis des GLUE-Benchmarks für Sprachverständnis zeigte sich, dass UltraFastBERT trotz der stark verringerten Neuronennutzung bis zu 96 Prozent der Leistung des Originalmodells BERT lieferte.

Enormes Beschleunigungspotential bei großen Modellen

Vor allem bei sehr großen Sprachmodellen hat der Ansatz den Forschern zufolge ein enormes Beschleunigungspotenzial. So könnte beispielsweise beim OpenAI-Sprachmodell GPT-3 die Anzahl der benötigten Neuronen je Inferenz theoretisch auf nur 0,03 Prozent der bisherigen Menge reduziert werden.

Um die theoretischen Möglichkeiten auch in der Praxis auszuschöpfen, sind jedoch noch Optimierungen auf Softwareebene notwendig. Mit einer effizienten Implementierung der "Conditional Matrix Multiplication" wäre eine Beschleunigung um einen Faktor von 341 realisierbar, so die Wissenschaftler.

Das dafür benötigte Wissen sei jedoch nicht frei zugänglich:

Dense Matrix Multiplikation ist die am meisten optimierte mathematische Operation in der Geschichte der Informatik. Es wurden enorme Anstrengungen unternommen, um Speicher, Chips, Befehlssätze und Softwareroutinen zu entwickeln, die diese Operation so schnell wie möglich ausführen. Viele dieser Fortschritte wurden aufgrund ihrer Komplexität oder aus Gründen des Wettbewerbsvorteils geheim gehalten und dem Endnutzer nur über leistungsfähige, aber restriktive Programmierschnittstellen zugänglich gemacht. Daher sind wir, obwohl wir keine neue Hardware benötigen, immer noch gezwungen, hochgradige lineare algebraische Routinen zu kombinieren, um CMM zu implementieren, was zu einer Verringerung der Beschleunigung führt.

Aus dem Paper

In einem ersten Schritt schrieben die Forscher jedoch funktionierenden Code auf CPU-Level, der immerhin eine 78-fache Beschleunigung gegenüber der optimierten Baseline-Feedforward-Implementierung erreichte.

Auch im Bereich der Bildmodelle haben Forschende Durchbrüche gemacht, die benötigte Berechnungszeit drastisch zu verkürzen. SDXL Turbo von Stability AI reduziert die Bildgenerierungsschritte von 50 auf einen, bei nahezu gleichbleibender Qualität.

Source: Paper VentureBeat

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren