Microsoft hat ein neues Sprachmodell vorgestellt, das besonders wenig Energie und Speicher verbraucht.
Microsofts neues Sprachmodell BitNet b1.58 2B4T wurde von Grund auf so entworfen, dass es besonders effizient arbeitet. Statt wie üblich mit 16- oder 32-Bit-Zahlen rechnet BitNet mit nur 1.58 Bit pro Gewicht. Dadurch benötigt es deutlich weniger Speicher, verbraucht weniger Energie und antwortet schneller – besonders auf Geräten mit wenig Rechenleistung. Das Modell baut auf einer früheren Arbeit des BitNet-Teams auf.
Das Modell basiert auf der bekannten Transformer-Architektur, wurde aber an vielen Stellen angepasst. Die Entwickler tauschten zum Beispiel klassische Rechenbausteine durch sogenannte BitLinear-Schichten aus, die mit vereinfachten Zahlen arbeiten. Auch die Aktivierungen wurden auf 8 Bit reduziert. Trotz dieser Einsparungen erreicht das Modell eine vergleichbare Leistung wie andere Modelle mit der doppelten oder dreifachen Größe.
Trainiert wurde das Modell mit vier Billionen Wörtern aus öffentlichen Webdaten, Lerninhalten und künstlich erzeugten Mathematikaufgaben. Danach wurde es mit speziellen Dialogdaten verfeinert und zusätzlich so angepasst, dass es möglichst hilfreiche und sichere Antworten gibt.
BitNet b1.58 2B4T für den lokalen Einsatz
In Tests schnitt BitNet deutlich besser ab als andere sparsame Modelle – und hält bei vielen Aufgaben sogar mit deutlich größeren und weniger effizienten Modellen mit. Dabei ist das Modell mit nur 0,4 Gigabyte Speicherbedarf besonders leicht einsetzbar, etwa auf Laptops oder in der Cloud. Auch gegenüber nachträglich vereinfachten Modellen (z. B. mit INT4-Quantisierung) zeigt BitNet eine bessere Kombination aus Leistung und Effizienz.
Um das Modell einfach nutzbar zu machen, hat Microsoft eigene Programme für die Inferenz auf GPU und CPU veröffentlicht – darunter eine besonders schlanke C++-Version. Künftig plant Microsoft, größere Versionen zu entwickeln, mehr Sprachen zu integrieren und das Modell für längere Texte und Bilder zu erweitern. Mit der Phi-Reihe hat das Unternehmen außerdem eine weitere effiziente Modellfamilie in der Entwicklung.