Sparsification: Graphcore und Aleph Alpha zeigen schlankes KI-Sprachmodell

Die europäischen KI-Unternehmen Graphcore und Aleph Alpha zeigen ein erstes Ergebnis ihrer Kooperation: ein um 80 Prozent schlankeres Sprachmodell.

Große Sprachmodelle wie OpenAIs GPT-3 oder Googles PaLM haben weit über hundert Milliarden Parameter. Trotz neuer Erkenntnisse zur Rolle von Trainingsdaten in Deepminds Chinchilla sind noch größere Modelle zu erwarten.

Tatsächlich gibt es mit Sprachmodellen wie Googles Switch Transformer bereits solche mit 1,6 Billionen Parametern, diese setzen allerdings auf Sparse-Modeling, im Fall von Google konkret auf eine Mixture-of-Experts Transformer-Architektur.

Während etwa bei GPT-3 bei jeder Verarbeitung alle Teile des neuronalen Netzes beteiligt sind, nutzen Sparse-Modelle wie Switch Transformer Verfahren, bei denen nur noch für die Aufgabe relevante Teile des Netzes aktiv werden. Damit lässt sich die benötigte Rechenleistung für Anfragen an das Netz stark reduzieren.

Klassische neuronale Netze sind "Dense" trainiert. Per Sparse-Modeling lassen sich die Netze in ihrer Komplexität bei annähernd gleichbleibender Leistung reduzieren. | Bild: Graphcore/Aleph Alpha

Erste Früchte einer europäischen KI-Kooperation?

Google nutzt Sparse-Modeling im Fall von Switch Transformer, um Sprachmodelle weiter zu skalieren. Doch umgekehrt lassen sich damit auch kleinere Netze mit ähnlicher Leistung wie große Modelle trainieren.

Genau das haben nun der KI-Chip-Hersteller Graphcore und das KI-Startup Aleph Alpha getan. Die beiden europäischen KI-Unternehmen kündigten im Juni 2022 eine Kooperation an, deren Ziel unter anderem die Entwicklung großer europäischer KI-Modelle ist.

Aleph-Alpha-CEO Jonas Andrulis wies im vergangenen Sommer auf die Vorteile der Graphcore Hardware für Sparse-Modeling hin: "Die IPU von Graphcore bietet die Möglichkeit, fortschrittliche technologische Ansätze wie Conditional Sparsity zu evaluieren. Diese Architekturen werden zweifellos eine Rolle in der zukünftigen Forschung von Aleph Alpha spielen."

Graphcore und Aleph Alpha zeigen schlankes Luminous-Sprachmodell

Die beiden Unternehmen konnten das 13 Milliarden Parameter große "Luminous Base"-Sprachmodell von Aleph Alpha auf 2,6 Milliarden Parameter verschlanken. Die Unternehmen zeigten zudem eine verschlankte Variante von Lumi, einem "Conversational Module" für Luminous.

Auf der Super Computing Conference 2022 (SC22) in Texas zeigten Aleph Alpha und Graphcore, wie die Sparse-Variante von Luminous das Lumi-Modul antreibt. Lumi ist eine Art "Chatbot-Modus" des Sprachmodells. | Bild: Aleph Alpha

Das genutzte Sparse-Modeling habe knapp 80 Prozent des Modellgewichts eliminiert und gleichzeitig die meisten seiner Fähigkeiten erhalten, heißt es in der Pressemitteilung.

Empfehlung

KI in der Praxis

Anthropic stellt Claude 4 Modelle vor und aktiviert strenge Sicherheitsstandards

Das neue Modell nutzt die von der Graphcores Intelligence Processing Unit (IPU) unterstützten Point Sparse Matrix Multiplications und benötige nur noch 20 Prozent der Rechenleistung und 44 Prozent des Speichers des ursprünglichen Modells.

Durch die geringe Größe könne das 2,6 Milliarden Parameter Modell vollständig auf dem Ultra-High-Speed On-Chip-Memory eines Graphcore IPU-POD16 Classic gehalten werden - und so maximale Leistung erzielen. Das Modell benötige zudem 38 Prozent weniger Energie.

"Sparsification" zentral für nächste Generation von KI-Modellen

Für die nächste Generation von Modellen werde die "Sparsification" von entscheidender Bedeutung sein, so die Unternehmen. Spezialisierte Teilmodelle würden durch sie in die Lage versetzt, ausgewähltes Wissen effizienter zu beherrschen.

"Dieser Durchbruch beim Sparse Modeling wirkt sich auf das kommerzielle Potenzial von KI-Unternehmen wie Aleph Alpha aus, die damit in der Lage sind, leistungsstarke KI-Modelle mit minimalen Anforderungen an die Rechenleistung für Kunden bereitzustellen", heißt es weiter.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Auch Google folgt diesem Weg. Im Oktober 2021 sprach KI-Chef Jeff Dean das erste Mal über die KI-Zukunft des Suchgiganten: Pathways soll einmal eine Art KI-Mehrzwecksystem werden - und setzt als zentrales Element auf Sparse-Modeling.

Sparsification: Graphcore und Aleph Alpha zeigen schlankes KI-Sprachmodell

Erste Früchte einer europäischen KI-Kooperation?

Graphcore und Aleph Alpha zeigen schlankes Luminous-Sprachmodell

Anthropic stellt Claude 4 Modelle vor und aktiviert strenge Sicherheitsstandards

"Sparsification" zentral für nächste Generation von KI-Modellen

Google rollt Embedding-Modell gemini-embedding-001 aus

Musks Raumfahrtfirma SpaceX steckt zwei Milliarden US-Dollar in Musks KI-Firma xAI

xAI will Grok korrigieren: Chatbot soll nicht Musks Meinungen als Referenz nehmen

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Sparsification: Graphcore und Aleph Alpha zeigen schlankes KI-Sprachmodell

Erste Früchte einer europäischen KI-Kooperation?

Graphcore und Aleph Alpha zeigen schlankes Luminous-Sprachmodell

"Sparsification" zentral für nächste Generation von KI-Modellen

Artikel teilen

Bankverbindung