Microsoft veröffentlicht Framework für hocheffiziente 1-Bit-Sprachmodelle

Update

Bitnet.cpp-Release ergänzt

Update vom 17.10.24:

Das Team hinter BitNet hat Bitnet.cpp, ein neues Inferenz-Framework für 1-Bit-Sprachmodelle wie BitNet b1.58, veröffentlicht. Es bietet optimierte Kernels für schnelle, verlustfreie Inferenz auf CPUs. Laut den Entwicklern erreicht bitnet.cpp Geschwindigkeitssteigerungen von 1,37x bis 5,07x auf ARM-CPUs und 2,37x bis 6,17x auf x86-CPUs. Der Energieverbrauch wird um 55,4 % bis 82,2 % reduziert. Bitnet.cpp unterstützt aktuell drei 1-Bit-Modelle von Hugging Face:

Weitere sollen folgen. BitNet gibt es auf GitHub.

Ursprünglicher Artikel vom 02. März 2024

Forscher von Microsoft Research und der University of Chinese Academy of Sciences haben mit BitNet b1.58 ein 1-Bit-Sprachmodell vorgestellt, das hohe Leistung bei deutlich reduzierten Kosten und Energieverbrauch verspricht.

Die Entwicklung von großen Sprachmodellen, wie GPT-4 hat in den letzten Jahren bedeutende Fortschritte gemacht, doch die hohe Energie- und Speichernutzung sowie die damit verbundenen Kosten stellen nach wie vor große Herausforderungen für Umwelt und einen breiten Einsatz der KI dar. Eine aktuelle Studie von Shuming Ma und Kollegen von Microsoft Research sowie der University of Chinese Academy of Sciences könnte jedoch einen Durchbruch in diese Problematik bringen: Sie haben ein 1-Bit-Sprachmodell namens BitNet b1.58 vorgestellt, das im Vergleich zu herkömmlichen 16-Bit-Modellen (FP16 oder BF16) eine ähnliche Leistung bei deutlich reduzierter Latenz, Speicherbedarf und Energieverbrauch bietet.

Diese 1-Bit-Modelle arbeiten mit ternären Parametern, welche Werte von -1, 0 und 1 annehmen können, und wurden in der Studie mit dem BitNet b1.58, einer Weiterentwicklung des Original-BitNet, eingeführt. Der Clou dabei: Die Parameter sind nicht mehr nur auf die zwei Werte -1 und 1 beschränkt, sondern umfassen auch die Null, was zu einer Darstellung mit durchschnittlich 1,58 Bits führt, somit eine höhere Modellierfähigkeit bietet und so die Leistung klassischer Sprachmodelle besser abbilden kann.

Die Forscher zeigten, dass BitNet b1.58 ab einer Größe von 3 Milliarden Parametern eine vergleichbare Leistung zu klassischen Sprachmodellen in Bezug auf Perplexität und Aufgabenleistung erreicht - und das bei einer bis zu 2,71-fach schnellere Verarbeitung und eine 3,55-fach geringere Speichernutzung. Eine 3,9 Milliarden Parameter Variante von BitNet b1.58 soll dabei deutlich besser abschneiden als Metas Llama 3B.

1-Bit-Modelle könnten weiter von spezieller Hardware profitieren

Ein Schlüsselvorteil dieser neuen 1-Bit-Modelle liegt in ihrer Effizienz bei der Matrixmultiplikation, die hauptsächlich Additionen von Ganzzahlen benötigt – eine Operation, die deutlich weniger Energie verbraucht als die üblichen Fließkommaoperationen. Die Forscher schlagen vor, dass die Energieeinsparungen durch diese Modelle auch in eine schnellere Berechnung umgesetzt werden könnten, da die Leistung vieler Chips durch die verfügbare Energie begrenzt ist.

Empfehlung

KI in der Praxis

Ex-OpenAI-Chefforscher bekommt eine Milliarde US-Dollar für Super-KI-Projekt

Ein weiterer positiver Aspekt ist die Reduzierung des Speicherbedarfs. Da BitNet b1.58 mit geringeren Bits auskommt, verringert sich auch der Speicherplatz, der erforderlich ist, um die Modellparameter vom DRAM in den Speicher eines On-Chip-Beschleunigers zu übertragen. Dies führt zu schnelleren und effizienteren Inferenzprozessen.

Die Studie liefert auch Vergleiche zu aktuellen Modellen und zeigt auf, dass BitNet b1.58 mit 70 Milliarden Parametern eine bis zu 11-fach höhere Batch-Größe und eine 8,9-fach höhere Token-Durchsatzrate als ein vergleichbares LLaMA 70B Modell erreichen könnte.

Die Forscher weisen auch darauf hin, dass zur vollen Ausschöpfung des Potenzials von 1-Bit-Sprachmodellen die Entwicklung spezieller Hardware für diese Modelle erforderlich ist. Sie fordern weitere Forschung und Entwicklung in dieser Richtung, um die Vorteile dieser neuen Modelle voll auszuschöpfen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Microsoft veröffentlicht Framework für hocheffiziente 1-Bit-Sprachmodelle

1-Bit-Modelle könnten weiter von spezieller Hardware profitieren

Ex-OpenAI-Chefforscher bekommt eine Milliarde US-Dollar für Super-KI-Projekt

OpenAI testet ChatGPT-Agenten für Tabellen und Präsentationen als Alternative zu Microsoft-Tools

Replit und Microsoft gehen Partnerschaft ein

Microsoft Build 2025: Alle wichtigen Ankündigungen auf einen Blick

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Microsoft veröffentlicht Framework für hocheffiziente 1-Bit-Sprachmodelle

1-Bit-Modelle könnten weiter von spezieller Hardware profitieren

Artikel teilen

Bankverbindung