StripedHyena: Eine neue Architektur für die generative KI der nächsten Generation?

DALL-E 3 prompted by THE DECODER

GPT-4 und andere Modelle setzen auf Transformer. Mit StripedHyena stellen Forschenden eine Alternative zur verbreiteten Architektur vor.

Das Team von Together AI präsentiert mit StripedHyena ein Sprachmodell mit 7 Milliarden Parametern. Das Besondere: StripedHyena nutzt eine neue Reihe von KI-Architekturen, die darauf abzielen, die Trainings- und Inferenzleistung gegenüber der weit verbreiteten Transformer-Architektur zu verbessern, die etwa für GPT-4 zum Einsatz kommt.

Die Veröffentlichung umfasst StripedHyena-Hessian-7B (SH 7B), ein Basismodell, und StripedHyena-Nous-7B (SH-N 7B), ein Chat-Modell. Diese Modelle sollen schneller, speichereffizienter und in der Lage sein, sehr lange Kontexte mit bis zu 128.000 Token zu verarbeiten. Beteiligt waren HazyResearch, das hessische KI-Zentrum Hessian.AI, Nous Research, MILA, HuggingFace und das Deutsche Forschungszentrum für Künstliche Intelligenz.

StripedHyena: Effiziente Alternative zu Transformern

StripedHyena ist laut Together AI das erste alternative Modell, das mit den besten Open-Source-Transformern konkurrieren kann. Das Basismodell erreicht bei OpenLLM-Leaderboard-Aufgaben eine vergleichbare Leistung wie Llama-2, Yi und Mistral 7B und übertrifft diese etwa bei der Zusammenfassung für lange Kontexte.

Die Kernkomponente der StripedHyena Modelle ist eine State-Space-Model (SSM) Schicht. Traditionell werden SSMs verwendet, um komplexe Sequenzen und Zeitreihendaten zu modellieren. Sie sind besonders nützlich für Aufgaben, bei denen zeitliche Abhängigkeiten modelliert werden müssen. In den letzten zwei Jahren haben Forschende jedoch immer bessere Methoden entwickelt, um SSMs auch für Sequenzmodelle für Sprache und andere Domänen nutzbar zu machen. Der Grund: Sie benötigen weniger Rechenleistung.

Das Ergebnis: StripedHyena ist beim End-to-End-Training von Sequenzen der Länge 32.000 Token, 64.000 Token und 128.000 Token um mehr als 30 Prozent, 50 Prozent und 100 Prozent schneller als klassische Transformatoren.

Das Hauptziel der StripedHyena-Modelle besteht darin, die Grenzen des Architekturdesigns über Transformer hinaus zu erweitern. Die Forscher planen, in Zukunft größere Modelle mit längeren Kontexten, multimodaler Unterstützung, weiteren Performance-Optimierungen und der Integration von StripedHyena in Retrieval-Pipelines zu untersuchen, um den längeren Kontext voll auszunutzen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

StripedHyena: Eine neue Architektur für die generative KI der nächsten Generation?

StripedHyena: Effiziente Alternative zu Transformern

Neue Studie relativiert Apples Kritik an KI-Reasoning

François Chollet über das Ende der Skalierung, ARC-3 und seinen Weg zu AGI

Meta plant proaktive KI-Bots für mehr Nutzerbindung

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

StripedHyena: Eine neue Architektur für die generative KI der nächsten Generation?

StripedHyena: Effiziente Alternative zu Transformern

Neue Studie relativiert Apples Kritik an KI-Reasoning

François Chollet über das Ende der Skalierung, ARC-3 und seinen Weg zu AGI

Meta plant proaktive KI-Bots für mehr Nutzerbindung