Forschende haben eine erste Version von LongLLaMA veröffentlicht, einem großen Sprachmodell, das lange Kontexte mit bis zu 256.000 Token oder mehr verarbeiten kann - das entspricht etwa 500 Seiten Text. Das Modell basiert auf dem quelloffenen OpenLLaMA und wurde mit der Focused-Transformer-Methode (FoT) feinabgestimmt. Die erlaubt bestimmten Attention-Schichten im Transformer, auf einen Speichercache mit Schlüssel-Wert-Paaren zuzugreifen und so ihre Kontextlänge zu erweitern.
Nach Angaben des Teams behält das Modell seine Leistung bei Aufgaben, die keine langen Kontexte erfordern, und kann daher als Ersatz für LLaMA-Implementierungen mit kürzeren Kontexten verwendet werden. Das Team hat seine kleine 3B-Variante unter der Apache 2.0-Lizenz veröffentlicht, mit einem Code, der längere Kontexte bei Hugging Face unterstützt. Größere Versionen mit 7 und 13 Milliarden Parametern befinden sich im Training.