Ein japanisches Forschungsteam trainiert mit dem Supercomputer Fugaku das große Sprachmodell Fugaku-LLM. Es soll besonders gut an die japanische Sprache und Kultur angepasst sein.
Große Sprachmodelle wie GPT-4 von OpenAI werden hauptsächlich von US-Firmen entwickelt und sind für Englisch optimiert. Japanische Forscher wollen dem ein eigenes Modell entgegensetzen, das auf die Besonderheiten der japanischen Sprache und Kultur zugeschnitten ist.
Bisherige Sprachmodelle haben oft Probleme mit den Feinheiten der japanischen Sprache und Kultur. So verwechseln sie seltene Schriftzeichen oder wenden kulturelle Kommunikationsnormen nicht angemessen an.
Das Fugaku-LLM, an dem ein Team aus Forschern des Tokyo Institute of Technology, der Tohoku University, von Fujitsu, RIKEN, der Nagoya University sowie der Firmen CyberAgent und Kotoba Technologies arbeitet, soll dies ändern.
Das Modell soll natürliche Dialoge führen, die die japanische Höflichkeitssprache und andere Merkmale der japanischen Sprache berücksichtigen.
Das Besondere: Rund 60 Prozent der Trainingsdaten sind auf Japanisch, der Rest auf Englisch sowie mathematische und Code-Daten.
Im Vergleich zu Modellen, die auf Basis bestehender englischer Modelle nur für Japanisch nachtrainiert werden, hat Fugaku-LLM einen Großteil seiner Informationen direkt auf Japanisch gelernt.
Für das Training nutzen die Wissenschaftler den japanischen Supercomputer Fugaku. Mit 13.824 Rechenknoten und 380 Milliarden Token, die für das Training verwendet werden, verfügt Fugaku-LLM über 13 Milliarden Parameter. Der Fugaku-Computer verwendet von Fujitsu entwickelte CPUs anstelle von GPUs.
Nach Angaben des Forscherteams ist es das beste offene Modell, das in Japan mit eigenen Daten entwickelt wurde. Insbesondere bei Aufgaben aus den Geistes- und Sozialwissenschaften erreicht es demnach eine hohe Benchmark-Punktzahl von 9,18.
Die Sprachmodelle und der Quellcode von Fugaku-LLM sind bei HuggingFace und bei Github sowie über das Fujitsu Research Portal verfügbar. Es ist für Forschung und kommerzielle Zwecke gedacht, solange sich die Nutzer an die Lizenz halten.
Die japanische Regierung und Unternehmen wie NEC, Fujitsu und SoftBank investieren hunderte Millionen Dollar in die Entwicklung eigener Sprachmodelle. Sie wollen mit kultursensibleren Modellen die Forschung im eigenen Land voranbringen und unabhängiger von den großen US-Tech-Konzernen werden.
Auch OpenAI hat kürzlich eine für Japanisch optimierte Version von GPT-4 veröffentlicht, das bereits in Projekten mit der japanischen Regierung zum Einsatz kommt.