Open-Source: LongLLaMA kann 500 Seiten Text gleichzeitig verarbeiten
Forschende haben eine erste Version von LongLLaMA veröffentlicht, einem großen Sprachmodell, das lange Kontexte mit bis zu 256.000 Token oder mehr verarbeiten kann - das entspricht etwa 500 Seiten Text. Das Modell basiert auf dem quelloffenen OpenLLaMA und wurde mit der Focused-Transformer-Methode (FoT) feinabgestimmt. Die erlaubt bestimmten Attention-Schichten im Transformer, auf einen Speichercache mit Schlüssel-Wert-Paaren zuzugreifen und so ihre Kontextlänge zu erweitern.
Nach Angaben des Teams behält das Modell seine Leistung bei Aufgaben, die keine langen Kontexte erfordern, und kann daher als Ersatz für LLaMA-Implementierungen mit kürzeren Kontexten verwendet werden. Das Team hat seine kleine 3B-Variante unter der Apache 2.0-Lizenz veröffentlicht, mit einem Code, der längere Kontexte bei Hugging Face unterstützt. Größere Versionen mit 7 und 13 Milliarden Parametern befinden sich im Training.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.