In China forschen Staat und Unternehmen an KI-Modellen mit Billionen Parametern. Sie wollen beweisen, dass sie "Brain-scale" KI entwickeln können - KI in den Dimensionen eines menschlichen Gehirns.
Im Rennen um immer größere KI-Modelle zeigt China, dass eine Kooperation zwischen Staat, Universitäten und dem privaten Sektor das Potenzial für gigantische KI-Modelle birgt. Die Forschenden sprechen von "brain-scale" KI: Das sind nach ihrer Definition KI-Modelle mit Parametern jenseits der 100-Billionen-Grenze.
Zu den aktuell größten KI-Modellen zählen Nvidia Megatron NGL mit 530 Milliarden Parametern, Googles Switch-Transformer mit 1,6 Billionen und WuDao 2.0 mit 1,75 Billionen Parametern.
Solche und andere Modelle werden im Westen oft ausschließlich von Unternehmen entwickelt. Einzelne Ausnahmen gibt es, etwa Open GPT-X, ein Sprachmodell, das im Rahmen der Gaia-X-Initiative entsteht oder das BigScience-Projekt des KI-Startups HuggingFace, das ein Sprachmodell auf einem französischen Supercomputer trainiert. Das Forschungskollektiv Eleuther AI entwickelt außerdem Open-Source-Modelle wie GPT-NeoX.
Kleiner Rekord auf dem Weg zum großen 100-Billionen-Modell
Die Forschenden der Tsinghua University, der Alibaba Group, des Zhejiang Lab und der Pekinger Akademie für Künstliche Intelligenz stellen in ihrer Arbeit "BaGuaLu" vor, ein Framework, das das Training großer KI-Modelle mit der Mixture-of-Experts-Architektur (MoE) ermöglicht.
Die setzt, wie auch OpenAIs GPT-3, auf Transformer-Modelle, bildet im KI-Training jedoch einzelne Expertennetze aus, die bestimmte Anfragen übernehmen und dabei die Ressourcen des restlichen Netzwerks schonen. Die riesigen MoE-Modelle aktivieren immer nur den Teil des Netzwerks, der gerade benötigt wird, anstatt das gesamte Netzwerk, wie viele andere KI-Architekturen.
Bei einem ersten Test trainierten die Forschenden mit ihrem Framework ein 1,93 Billionen-Modell und überholten so Googles Switch-Transformer. Sie weisen zudem nach, dass ihr Framework Modelle mit 14,5 Billionen und ganzen 174 Billionen Parametern ermöglicht.
Ihre Experimente führten die Forschenden auf dem chinesischen Supercomputer "New Generation Sunway" durch und zeigten dabei auch, welche Hürden die Supercomputer-Technologie für die geplanten gigantischen Modelle noch nehmen muss.
KI-Modelle auf Gehirn-Größe könnten große Fortschritte bringen
Das Team erwartet, dass multimodal trainierte gigantische KI-Modelle weitreichende Auswirkungen auf zahlreiche KI-Anwendungen haben können. Multimodal heißt, dass eine KI mit verschiedenen zusammenhängenden Daten trainiert wird, etwa mit Fotos, Texten und Videos.
Als Anwendungsszenarien nennen die Forschenden Bild- und Videobeschriftung, Bild- und Videogenerierung, multimodale Suche, Beantwortung visueller Fragen, visuelle Schlussfolgerungen, Objektreferenzierung, multimodale Dialogsysteme und multimodale Übersetzung. Die in diesen Feldern gesammelten Erfahrungen könnten zudem in andere Bereiche übertragen werden, etwa KI in der Biologie oder Chemie.
BaGuaLu könne schon bald genutzt werden, um die ersten Modelle jenseits der 100-Billionen-Grenze zu trainieren. Dann würde sich auch zeigen, ob die Fähigkeiten der KI-Modelle weiter so deutlich mit ihrer Größe skalieren, wie es etwa von GPT-2 zu GPT-3 sichtbar war.
Wer mehr über KI-Skalierung und potenzielle Leistungssprünge lernen will, kann sich unseren DEEP MINDS KI-Podcast #4 mit Eleuther-AI-Mitgründer Connor Leahy anhören: Mit dem KI-Forscher spekulieren wir über die weitere Entwicklung Künstlicher Intelligenz bis zur Super-KI.