GPT-4 und andere Modelle setzen auf Transformer. Mit StripedHyena stellen Forschenden eine Alternative zur verbreiteten Architektur vor.
Das Team von Together AI präsentiert mit StripedHyena ein Sprachmodell mit 7 Milliarden Parametern. Das Besondere: StripedHyena nutzt eine neue Reihe von KI-Architekturen, die darauf abzielen, die Trainings- und Inferenzleistung gegenüber der weit verbreiteten Transformer-Architektur zu verbessern, die etwa für GPT-4 zum Einsatz kommt.
Die Veröffentlichung umfasst StripedHyena-Hessian-7B (SH 7B), ein Basismodell, und StripedHyena-Nous-7B (SH-N 7B), ein Chat-Modell. Diese Modelle sollen schneller, speichereffizienter und in der Lage sein, sehr lange Kontexte mit bis zu 128.000 Token zu verarbeiten. Beteiligt waren HazyResearch, das hessische KI-Zentrum Hessian.AI, Nous Research, MILA, HuggingFace und das Deutsche Forschungszentrum für Künstliche Intelligenz.
StripedHyena: Effiziente Alternative zu Transformern
StripedHyena ist laut Together AI das erste alternative Modell, das mit den besten Open-Source-Transformern konkurrieren kann. Das Basismodell erreicht bei OpenLLM-Leaderboard-Aufgaben eine vergleichbare Leistung wie Llama-2, Yi und Mistral 7B und übertrifft diese etwa bei der Zusammenfassung für lange Kontexte.
Die Kernkomponente der StripedHyena Modelle ist eine State-Space-Model (SSM) Schicht. Traditionell werden SSMs verwendet, um komplexe Sequenzen und Zeitreihendaten zu modellieren. Sie sind besonders nützlich für Aufgaben, bei denen zeitliche Abhängigkeiten modelliert werden müssen. In den letzten zwei Jahren haben Forschende jedoch immer bessere Methoden entwickelt, um SSMs auch für Sequenzmodelle für Sprache und andere Domänen nutzbar zu machen. Der Grund: Sie benötigen weniger Rechenleistung.
Das Ergebnis: StripedHyena ist beim End-to-End-Training von Sequenzen der Länge 32.000 Token, 64.000 Token und 128.000 Token um mehr als 30 Prozent, 50 Prozent und 100 Prozent schneller als klassische Transformatoren.
Das Hauptziel der StripedHyena-Modelle besteht darin, die Grenzen des Architekturdesigns über Transformer hinaus zu erweitern. Die Forscher planen, in Zukunft größere Modelle mit längeren Kontexten, multimodaler Unterstützung, weiteren Performance-Optimierungen und der Integration von StripedHyena in Retrieval-Pipelines zu untersuchen, um den längeren Kontext voll auszunutzen.