Inhalt
summary Zusammenfassung

Wissenschaftler der ETH Zürich haben eine Technik entwickelt, mit der sich KI-Sprachmodelle drastisch beschleunigen lassen.

Durch gezielte Modifikationen des Berechnungsprozesses des BERT-Modells konnten die Forschenden die Zahl der benötigten Neuronen auf 0,3 Prozent des ursprünglichen Wertes senken. Nur 12 von 4.095 Neuronen je Layer-Inferenz reichten aus, um mit "UltraFastBERT" ähnliche gute Ergebnisse wie das unveränderte Modell zu produzieren.

Bei Sprachmodellen auf Basis von Transformer-Architekturen ist ein Großteil der Parameter und Berechnungen in den sogenannten "Feedforward Networks" gebündelt. Die Forscher ersetzen diese Schichten durch spezielle "Fast Feedforward Networks" (FFF), die anders aufgebaut sind.

Dieser Komponentenwechsel hat zur Folge, dass aus Dense Matrix Multiplications (DMM) sogenannte Conditional Matrix Multiplications (CMM) werden. Anstatt jeden eingegebenen Parameter mit jedem Neuron zu multiplizieren, werden nur die jeweils für eine Aufgabe benötigten Neuronen durch binäre Entscheidungsbäume identifiziert und berechnet.

Anzeige
Anzeige

In Experimenten auf Basis des GLUE-Benchmarks für Sprachverständnis zeigte sich, dass UltraFastBERT trotz der stark verringerten Neuronennutzung bis zu 96 Prozent der Leistung des Originalmodells BERT lieferte.

Enormes Beschleunigungspotential bei großen Modellen

Vor allem bei sehr großen Sprachmodellen hat der Ansatz den Forschern zufolge ein enormes Beschleunigungspotenzial. So könnte beispielsweise beim OpenAI-Sprachmodell GPT-3 die Anzahl der benötigten Neuronen je Inferenz theoretisch auf nur 0,03 Prozent der bisherigen Menge reduziert werden.

Um die theoretischen Möglichkeiten auch in der Praxis auszuschöpfen, sind jedoch noch Optimierungen auf Softwareebene notwendig. Mit einer effizienten Implementierung der "Conditional Matrix Multiplication" wäre eine Beschleunigung um einen Faktor von 341 realisierbar, so die Wissenschaftler.

Das dafür benötigte Wissen sei jedoch nicht frei zugänglich:

Dense Matrix Multiplikation ist die am meisten optimierte mathematische Operation in der Geschichte der Informatik. Es wurden enorme Anstrengungen unternommen, um Speicher, Chips, Befehlssätze und Softwareroutinen zu entwickeln, die diese Operation so schnell wie möglich ausführen. Viele dieser Fortschritte wurden aufgrund ihrer Komplexität oder aus Gründen des Wettbewerbsvorteils geheim gehalten und dem Endnutzer nur über leistungsfähige, aber restriktive Programmierschnittstellen zugänglich gemacht. Daher sind wir, obwohl wir keine neue Hardware benötigen, immer noch gezwungen, hochgradige lineare algebraische Routinen zu kombinieren, um CMM zu implementieren, was zu einer Verringerung der Beschleunigung führt.

Aus dem Paper

In einem ersten Schritt schrieben die Forscher jedoch funktionierenden Code auf CPU-Level, der immerhin eine 78-fache Beschleunigung gegenüber der optimierten Baseline-Feedforward-Implementierung erreichte.

Empfehlung

Auch im Bereich der Bildmodelle haben Forschende Durchbrüche gemacht, die benötigte Berechnungszeit drastisch zu verkürzen. SDXL Turbo von Stability AI reduziert die Bildgenerierungsschritte von 50 auf einen, bei nahezu gleichbleibender Qualität.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • ETH Zürich-Wissenschaftler stellen eine Methode vor, die KI-Sprachmodellen drastisch beschleunigt, indem sie "Fast Feedforward Networks" (FFF) verwenden.
  • Mit "UltraFastBERT" erreichen sie ähnlich gute Ergebnisse wie das unveränderte Modell, während sie nur 0,3 Prozent der ursprünglichen Neuronen pro Inferenz verwenden.
  • Die Methode hat ein enormes Beschleunigungspotenzial, insbesondere bei großen Sprachmodellen wie OpenAIs GPT-3, jedoch sind noch Optimierungen auf Softwareebene notwendig.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!