Cerebras und Opentensor haben auf dem Supercomputer Condor Galaxy 1 (CG-1) ein leistungsfähiges Sprachmodell mit 3 Milliarden Parametern und einem Kontextfenster von 8k trainiert. Das neue Modell namens BTLM-3B-8k-base übertrifft ähnliche Modelle, erreicht eine Leistung, die mit offenen 7B-Parametermodellen vergleichbar ist, läuft auf Geräten mit nur 3 GB Speicher und ist für die kommerzielle Nutzung lizenziert. Es benötigt 71 % weniger Trainings-FLOPs und 58 % weniger Speicher für die Inferenz als vergleichbare 7B-Modelle.
Anzeige