Forschende haben eine erste Version von LongLLaMA veröffentlicht, einem großen Sprachmodell, das lange Kontexte mit bis zu 256.000 Token oder mehr verarbeiten kann - das entspricht etwa 500 Seiten Text. Das Modell basiert auf dem quelloffenen OpenLLaMA und wurde mit der Focused-Transformer-Methode (FoT) feinabgestimmt. Die erlaubt bestimmten Attention-Schichten im Transformer, auf einen Speichercache mit Schlüssel-Wert-Paaren zuzugreifen und so ihre Kontextlänge zu erweitern.

Anzeige

Nach Angaben des Teams behält das Modell seine Leistung bei Aufgaben, die keine langen Kontexte erfordern, und kann daher als Ersatz für LLaMA-Implementierungen mit kürzeren Kontexten verwendet werden. Das Team hat seine kleine 3B-Variante unter der Apache 2.0-Lizenz veröffentlicht, mit einem Code, der längere Kontexte bei Hugging Face unterstützt. Größere Versionen mit 7 und 13 Milliarden Parametern befinden sich im Training.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Quellen
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!