Inhalt
summary Zusammenfassung

Die europäischen KI-Unternehmen Graphcore und Aleph Alpha zeigen ein erstes Ergebnis ihrer Kooperation: ein um 80 Prozent schlankeres Sprachmodell.

Anzeige

Große Sprachmodelle wie OpenAIs GPT-3 oder Googles PaLM haben weit über hundert Milliarden Parameter. Trotz neuer Erkenntnisse zur Rolle von Trainingsdaten in Deepminds Chinchilla sind noch größere Modelle zu erwarten.

Tatsächlich gibt es mit Sprachmodellen wie Googles Switch Transformer bereits solche mit 1,6 Billionen Parametern, diese setzen allerdings auf Sparse-Modeling, im Fall von Google konkret auf eine Mixture-of-Experts Transformer-Architektur.

Während etwa bei GPT-3 bei jeder Verarbeitung alle Teile des neuronalen Netzes beteiligt sind, nutzen Sparse-Modelle wie Switch Transformer Verfahren, bei denen nur noch für die Aufgabe relevante Teile des Netzes aktiv werden. Damit lässt sich die benötigte Rechenleistung für Anfragen an das Netz stark reduzieren.

Anzeige
Anzeige
Klassische neuronale Netze sind "Dense" trainiert. Per Sparse-Modeling lassen sich die Netze in ihrer Komplexität bei annähernd gleichbleibender Leistung reduzieren. | Bild: Graphcore/Aleph Alpha

Erste Früchte einer europäischen KI-Kooperation?

Google nutzt Sparse-Modeling im Fall von Switch Transformer, um Sprachmodelle weiter zu skalieren. Doch umgekehrt lassen sich damit auch kleinere Netze mit ähnlicher Leistung wie große Modelle trainieren.

Genau das haben nun der KI-Chip-Hersteller Graphcore und das KI-Startup Aleph Alpha getan. Die beiden europäischen KI-Unternehmen kündigten im Juni 2022 eine Kooperation an, deren Ziel unter anderem die Entwicklung großer europäischer KI-Modelle ist.

Aleph-Alpha-CEO Jonas Andrulis wies im vergangenen Sommer auf die Vorteile der Graphcore Hardware für Sparse-Modeling hin: "Die IPU von Graphcore bietet die Möglichkeit, fortschrittliche technologische Ansätze wie Conditional Sparsity zu evaluieren. Diese Architekturen werden zweifellos eine Rolle in der zukünftigen Forschung von Aleph Alpha spielen."

Graphcore und Aleph Alpha zeigen schlankes Luminous-Sprachmodell

Die beiden Unternehmen konnten das 13 Milliarden Parameter große "Luminous Base"-Sprachmodell von Aleph Alpha auf 2,6 Milliarden Parameter verschlanken. Die Unternehmen zeigten zudem eine verschlankte Variante von Lumi, einem "Conversational Module" für Luminous.

Auf der Super Computing Conference 2022 (SC22) in Texas zeigten Aleph Alpha und Graphcore, wie die Sparse-Variante von Luminous das Lumi-Modul antreibt. Lumi ist eine Art "Chatbot-Modus" des Sprachmodells. | Bild: Aleph Alpha

Das genutzte Sparse-Modeling habe knapp 80 Prozent des Modellgewichts eliminiert und gleichzeitig die meisten seiner Fähigkeiten erhalten, heißt es in der Pressemitteilung.

Empfehlung

Das neue Modell nutzt die von der Graphcores Intelligence Processing Unit (IPU) unterstützten Point Sparse Matrix Multiplications und benötige nur noch 20 Prozent der Rechenleistung und 44 Prozent des Speichers des ursprünglichen Modells.

Durch die geringe Größe könne das 2,6 Milliarden Parameter Modell vollständig auf dem Ultra-High-Speed On-Chip-Memory eines Graphcore IPU-POD16 Classic gehalten werden - und so maximale Leistung erzielen. Das Modell benötige zudem 38 Prozent weniger Energie.

"Sparsification" zentral für nächste Generation von KI-Modellen

Für die nächste Generation von Modellen werde die "Sparsification" von entscheidender Bedeutung sein, so die Unternehmen. Spezialisierte Teilmodelle würden durch sie in die Lage versetzt, ausgewähltes Wissen effizienter zu beherrschen.

"Dieser Durchbruch beim Sparse Modeling wirkt sich auf das kommerzielle Potenzial von KI-Unternehmen wie Aleph Alpha aus, die damit in der Lage sind, leistungsstarke KI-Modelle mit minimalen Anforderungen an die Rechenleistung für Kunden bereitzustellen", heißt es weiter.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Auch Google folgt diesem Weg. Im Oktober 2021 sprach KI-Chef Jeff Dean das erste Mal über die KI-Zukunft des Suchgiganten: Pathways soll einmal eine Art KI-Mehrzwecksystem werden - und setzt als zentrales Element auf Sparse-Modeling.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Das Heidelberger KI-Unternehmen Aleph Alpha verschlankt sein 13 Milliarden Parameter Luminous Base Model per Sparse Modelling auf 2,6 Milliarden Parameter.
  • Das Sparse-Modell benötigt nur 20 Prozent der Verarbeitungs-FLOPs und 44 Prozent des Speichers des Dense-Modells und läuft auf Graphcores IPU Hardware. Laut Aleph Alpha bleiben die meisten Fähigkeiten des großen Modells dabei erhalten.
  • Die Unternehmen bezeichnen ihre Arbeit als Durchbruch, der sich auf das kommerzielle Potenzial von KI-Unternehmen wie Aleph Alpha auswirke. Mit "Sparsification" können sie leistungsstarke KI-Modelle mit minimalen Anforderungen an die Rechenleistung bereitstellen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!