Inhalt
summary Zusammenfassung

Giraffe ist ein Open-Source-Sprachmodell mit einem Kontextfenster von 32.000 Token, was es für viele Geschäftsanwendungen nützlich machen könnte.

Große Sprachmodelle wie GPT-4 zeigen beeindruckende Fähigkeiten, haben aber oft ein begrenztes Kontextfenster, was ihren Einsatz bei Aufgaben einschränkt, bei denen sie Dutzende von Seiten verarbeiten müssten. Varianten wie GPT-4-32k oder Anthropic's Claude mit einem Kontextfenster von 100.000 Token bieten einen viel größeren "Speicher" und sind daher in solchen Anwendungsfällen leistungsfähiger.

Nun haben Forschende das Kontextfenster des quelloffenen LLaMA-Modells um das Zehnfache erweitert. Das daraus resultierende Sprachmodell Giraffe liegt in einer Version mit 13 Milliarden Parametern und einem Kontextfenster von 32.000 Token vor, kann so dutzende Seiten Text verarbeiten und verfügt damit über eines der größten Kontextfenster aller Open-Source-Sprachmodelle.

Giraffe bietet Einblick in die Skalierung von Kontextfenstern

Da es sich um eine Open-Source-Version handelt, bietet die Forschung auch einige wichtige Einblicke in das Innenleben von Sprachmodellen und verschiedene Skalierungstechniken zur Vergrößerung des Kontextfensters. Das Abacus.AI-Team fand heraus, dass die lineare Skalierung, bei der der Positionsvektor durch einen Skalierungsfaktor geteilt wird, der die Eingabe innerhalb der Kontextlänge des ursprünglichen Kontextfensters anpasst, am effektivsten ist, um die Kontextlänge von Giraffe zu erhöhen.

Anzeige
Anzeige

Sie stellten auch fest, dass die Genauigkeit bei Aufgaben mit langem Kontext mit zunehmender Länge abnimmt, was die Grenzen der derzeitigen Techniken aufzeige. Zudem sei Perplexität, die üblicherweise zur Messung der Sprachmodell-Leistung verwendet wird, allein nicht ausreichend, um die Leistung bei Aufgaben mit langem Kontext zu messen. Es benötige daher in Zukunft neue Tests für solche Sprachmodelle.

Weitere Informationen und Daten sind auf GitHub verfügbar, das Modell Giraffe-v2-13b-32k wird auf Hugging Face gehostet.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende haben das Kontextfenster des Open-Source-Modells LLaMA erweitert und Giraffe geschaffen, ein großes Sprachmodell mit einem Kontextfenster von 32.000 Token.
  • Giraffe, das in einer Version mit 13 Milliarden Parametern vorliegt, liefert zudem wichtige Erkenntnisse über Sprachmodelle und verschiedene Skalierungstechniken zur Vergrößerung des Kontextfensters.
  • Die Forschungsarbeit zeigt auch die Grenzen der derzeitigen Techniken und die Notwendigkeit individueller Tests, da Perplexität allein nicht ausreicht, um die Leistung bei langem Kontext zu messen. Giraffe-v2-13b-32k ist auf Hugging Face und GitHub verfügbar.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!