Open-Source: LongLLaMA kann 500 Seiten Text gleichzeitig verarbeiten

Forschende haben eine erste Version von LongLLaMA veröffentlicht, einem großen Sprachmodell, das lange Kontexte mit bis zu 256.000 Token oder mehr verarbeiten kann - das entspricht etwa 500 Seiten Text. Das Modell basiert auf dem quelloffenen OpenLLaMA und wurde mit der Focused-Transformer-Methode (FoT) feinabgestimmt. Die erlaubt bestimmten Attention-Schichten im Transformer, auf einen Speichercache mit Schlüssel-Wert-Paaren zuzugreifen und so ihre Kontextlänge zu erweitern.

Nach Angaben des Teams behält das Modell seine Leistung bei Aufgaben, die keine langen Kontexte erfordern, und kann daher als Ersatz für LLaMA-Implementierungen mit kürzeren Kontexten verwendet werden. Das Team hat seine kleine 3B-Variante unter der Apache 2.0-Lizenz veröffentlicht, mit einem Code, der längere Kontexte bei Hugging Face unterstützt. Größere Versionen mit 7 und 13 Milliarden Parametern befinden sich im Training.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Open-Source: LongLLaMA kann 500 Seiten Text gleichzeitig verarbeiten

Meta plant proaktive KI-Bots für mehr Nutzerbindung

SciArena: o3 dominiert neue KI-Plattform zur Bewertung wissenschaftlicher Antworten

Baidu veröffentlicht Open-Source-Modellfamilie ERNIE 4.5

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Open-Source: LongLLaMA kann 500 Seiten Text gleichzeitig verarbeiten

Meta plant proaktive KI-Bots für mehr Nutzerbindung

SciArena: o3 dominiert neue KI-Plattform zur Bewertung wissenschaftlicher Antworten

Baidu veröffentlicht Open-Source-Modellfamilie ERNIE 4.5