BitNet b1.58: 1-Bit-Modelle könnten die Zukunft von Chatbots sein

2. März 2024 Maximilian Schreiner

Forscher von Microsoft Research und der University of Chinese Academy of Sciences haben mit BitNet b1.58 ein 1-Bit-Sprachmodell vorgestellt, das hohe Leistung bei deutlich reduzierten Kosten und Energieverbrauch verspricht.

Die Entwicklung von großen Sprachmodellen, wie GPT-4 hat in den letzten Jahren bedeutende Fortschritte gemacht, doch die hohe Energie- und Speichernutzung sowie die damit verbundenen Kosten stellen nach wie vor große Herausforderungen für Umwelt und einen breiten Einsatz der KI dar. Eine aktuelle Studie von Shuming Ma und Kollegen von Microsoft Research sowie der University of Chinese Academy of Sciences könnte jedoch einen Durchbruch in diese Problematik bringen: Sie haben ein 1-Bit-Sprachmodell namens BitNet b1.58 vorgestellt, das im Vergleich zu herkömmlichen 16-Bit-Modellen (FP16 oder BF16) eine ähnliche Leistung bei deutlich reduzierter Latenz, Speicherbedarf und Energieverbrauch bietet.

Diese 1-Bit-Modelle arbeiten mit ternären Parametern, welche Werte von -1, 0 und 1 annehmen können, und wurden in der Studie mit dem BitNet b1.58, einer Weiterentwicklung des Original-BitNet, eingeführt. Der Clou dabei: Die Parameter sind nicht mehr nur auf die zwei Werte -1 und 1 beschränkt, sondern umfassen auch die Null, was zu einer Darstellung mit durchschnittlich 1,58 Bits führt, somit eine höhere Modellierfähigkeit bietet und so die Leistung klassischer Sprachmodelle besser abbilden kann.

Die Forscher zeigten, dass BitNet b1.58 ab einer Größe von 3 Milliarden Parametern eine vergleichbare Leistung zu klassischen Sprachmodellen in Bezug auf Perplexität und Aufgabenleistung erreicht - und das bei einer bis zu 2,71-fach schnellere Verarbeitung und eine 3,55-fach geringere Speichernutzung. Eine 3,9 Milliarden Parameter Variante von BitNet b1.58 soll dabei deutlich besser abschneiden als Metas Llama 3B.

1-Bit-Modelle könnten weiter von spezieller Hardware profitieren

Ein Schlüsselvorteil dieser neuen 1-Bit-Modelle liegt in ihrer Effizienz bei der Matrixmultiplikation, die hauptsächlich Additionen von Ganzzahlen benötigt – eine Operation, die deutlich weniger Energie verbraucht als die üblichen Fließkommaoperationen. Die Forscher schlagen vor, dass die Energieeinsparungen durch diese Modelle auch in eine schnellere Berechnung umgesetzt werden könnten, da die Leistung vieler Chips durch die verfügbare Energie begrenzt ist.

Ein weiterer positiver Aspekt ist die Reduzierung des Speicherbedarfs. Da BitNet b1.58 mit geringeren Bits auskommt, verringert sich auch der Speicherplatz, der erforderlich ist, um die Modellparameter vom DRAM in den Speicher eines On-Chip-Beschleunigers zu übertragen. Dies führt zu schnelleren und effizienteren Inferenzprozessen.

Die Studie liefert auch Vergleiche zu aktuellen Modellen und zeigt auf, dass BitNet b1.58 mit 70 Milliarden Parametern eine bis zu 11-fach höhere Batch-Größe und eine 8,9-fach höhere Token-Durchsatzrate als ein vergleichbares LLaMA 70B Modell erreichen könnte.

Die Forscher weisen auch darauf hin, dass zur vollen Ausschöpfung des Potenzials von 1-Bit-Sprachmodellen die Entwicklung spezieller Hardware für diese Modelle erforderlich ist. Sie fordern weitere Forschung und Entwicklung in dieser Richtung, um die Vorteile dieser neuen Modelle voll auszuschöpfen.

Quellen:

Arxiv