StripedHyena: Eine neue Architektur für die generative KI der nächsten Generation?

DALL-E 3 prompted by THE DECODER

GPT-4 und andere Modelle setzen auf Transformer. Mit StripedHyena stellen Forschenden eine Alternative zur verbreiteten Architektur vor.

Das Team von Together AI präsentiert mit StripedHyena ein Sprachmodell mit 7 Milliarden Parametern. Das Besondere: StripedHyena nutzt eine neue Reihe von KI-Architekturen, die darauf abzielen, die Trainings- und Inferenzleistung gegenüber der weit verbreiteten Transformer-Architektur zu verbessern, die etwa für GPT-4 zum Einsatz kommt.

Die Veröffentlichung umfasst StripedHyena-Hessian-7B (SH 7B), ein Basismodell, und StripedHyena-Nous-7B (SH-N 7B), ein Chat-Modell. Diese Modelle sollen schneller, speichereffizienter und in der Lage sein, sehr lange Kontexte mit bis zu 128.000 Token zu verarbeiten. Beteiligt waren HazyResearch, das hessische KI-Zentrum Hessian.AI, Nous Research, MILA, HuggingFace und das Deutsche Forschungszentrum für Künstliche Intelligenz.

StripedHyena: Effiziente Alternative zu Transformern

StripedHyena ist laut Together AI das erste alternative Modell, das mit den besten Open-Source-Transformern konkurrieren kann. Das Basismodell erreicht bei OpenLLM-Leaderboard-Aufgaben eine vergleichbare Leistung wie Llama-2, Yi und Mistral 7B und übertrifft diese etwa bei der Zusammenfassung für lange Kontexte.

Die Kernkomponente der StripedHyena Modelle ist eine State-Space-Model (SSM) Schicht. Traditionell werden SSMs verwendet, um komplexe Sequenzen und Zeitreihendaten zu modellieren. Sie sind besonders nützlich für Aufgaben, bei denen zeitliche Abhängigkeiten modelliert werden müssen. In den letzten zwei Jahren haben Forschende jedoch immer bessere Methoden entwickelt, um SSMs auch für Sequenzmodelle für Sprache und andere Domänen nutzbar zu machen. Der Grund: Sie benötigen weniger Rechenleistung.

Das Ergebnis: StripedHyena ist beim End-to-End-Training von Sequenzen der Länge 32.000 Token, 64.000 Token und 128.000 Token um mehr als 30 Prozent, 50 Prozent und 100 Prozent schneller als klassische Transformatoren.

Das Hauptziel der StripedHyena-Modelle besteht darin, die Grenzen des Architekturdesigns über Transformer hinaus zu erweitern. Die Forscher planen, in Zukunft größere Modelle mit längeren Kontexten, multimodaler Unterstützung, weiteren Performance-Optimierungen und der Integration von StripedHyena in Retrieval-Pipelines zu untersuchen, um den längeren Kontext voll auszunutzen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

StripedHyena: Eine neue Architektur für die generative KI der nächsten Generation?

StripedHyena: Effiziente Alternative zu Transformern

Google testet „Web Guide“: KI-Suche stellt automatisch relevante Zusatzfragen

US-Behörde FDA setzt halluzinierende KI bei Medikamentenzulassungen ein

Deepmind stellt KI-Modell Aeneas zur Rekonstruktion antiker römischer Texte vor

Nach OpenAI bestätigt auch Google Deepmind Mathe-Gold für KI – nur per Sprache

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

StripedHyena: Eine neue Architektur für die generative KI der nächsten Generation?

StripedHyena: Effiziente Alternative zu Transformern

Google testet „Web Guide“: KI-Suche stellt automatisch relevante Zusatzfragen

US-Behörde FDA setzt halluzinierende KI bei Medikamentenzulassungen ein

Deepmind stellt KI-Modell Aeneas zur Rekonstruktion antiker römischer Texte vor