Inhalt
summary Zusammenfassung

GPT-4 und andere Modelle setzen auf Transformer. Mit StripedHyena stellen Forschenden eine Alternative zur verbreiteten Architektur vor.

Das Team von Together AI präsentiert mit StripedHyena ein Sprachmodell mit 7 Milliarden Parametern. Das Besondere: StripedHyena nutzt eine neue Reihe von KI-Architekturen, die darauf abzielen, die Trainings- und Inferenzleistung gegenüber der weit verbreiteten Transformer-Architektur zu verbessern, die etwa für GPT-4 zum Einsatz kommt.

Die Veröffentlichung umfasst StripedHyena-Hessian-7B (SH 7B), ein Basismodell, und StripedHyena-Nous-7B (SH-N 7B), ein Chat-Modell. Diese Modelle sollen schneller, speichereffizienter und in der Lage sein, sehr lange Kontexte mit bis zu 128.000 Token zu verarbeiten. Beteiligt waren HazyResearch, das hessische KI-Zentrum Hessian.AI, Nous Research, MILA, HuggingFace und das Deutsche Forschungszentrum für Künstliche Intelligenz.

StripedHyena: Effiziente Alternative zu Transformern

StripedHyena ist laut Together AI das erste alternative Modell, das mit den besten Open-Source-Transformern konkurrieren kann. Das Basismodell erreicht bei OpenLLM-Leaderboard-Aufgaben eine vergleichbare Leistung wie Llama-2, Yi und Mistral 7B und übertrifft diese etwa bei der Zusammenfassung für lange Kontexte.

Anzeige
Anzeige

Die Kernkomponente der StripedHyena Modelle ist eine State-Space-Model (SSM) Schicht. Traditionell werden SSMs verwendet, um komplexe Sequenzen und Zeitreihendaten zu modellieren. Sie sind besonders nützlich für Aufgaben, bei denen zeitliche Abhängigkeiten modelliert werden müssen. In den letzten zwei Jahren haben Forschende jedoch immer bessere Methoden entwickelt, um SSMs auch für Sequenzmodelle für Sprache und andere Domänen nutzbar zu machen. Der Grund: Sie benötigen weniger Rechenleistung.

Das Ergebnis: StripedHyena ist beim End-to-End-Training von Sequenzen der Länge 32.000 Token, 64.000 Token und 128.000 Token um mehr als 30 Prozent, 50 Prozent und 100 Prozent schneller als klassische Transformatoren.

Das Hauptziel der StripedHyena-Modelle besteht darin, die Grenzen des Architekturdesigns über Transformer hinaus zu erweitern. Die Forscher planen, in Zukunft größere Modelle mit längeren Kontexten, multimodaler Unterstützung, weiteren Performance-Optimierungen und der Integration von StripedHyena in Retrieval-Pipelines zu untersuchen, um den längeren Kontext voll auszunutzen.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Together AI stellt StripedHyena vor, ein Sprachmodell mit 7 Milliarden Parametern, das neue KI-Architekturen verwendet, um Trainings- und Inferenzleistung gegenüber der Transformer-Architektur zu verbessern.
  • StripedHyena besteht aus zwei Modellen, SH 7B (Basismodell) und SH-N 7B (Chat-Modell), die schneller, speichereffizienter sind und sehr lange Kontexte mit bis zu 128.000 Token verarbeiten können.
  • Die Kernkomponente der StripedHyena Modelle ist eine State-Space-Model (SSM) Schicht, die weniger Rechenleistung benötigt und beim Training von langen Sequenzen schneller als klassische Transformer ist.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!