Die japanische Regierung und große Technologieunternehmen wie NEC, Fujitsu und SoftBank investieren "hunderte Millionen" in die Entwicklung eines japanischen Sprachmodells.
Dieses japanische Sprachmodell soll kulturelle und sprachliche Feinheiten besser abbilden, als es ChatGPT und Co. können. Für das Training des Sprachmodells mit japanischen Texten wird der nationale Supercomputer Fugaku eingesetzt.
Wenige Buchstaben gegen viele Zeichen
Keisuke Sakaguchi, Forscher für maschinelle natürliche Sprachverarbeitung an der Tohoku Universität in Japan, sieht die Unterschiede im Alphabetsystem und die begrenzten Trainingsdaten westlicher Systeme als Nachteil für japanische Nutzer.
So generiere ChatGPT mitunter "extrem seltene Zeichen, die die meisten Menschen noch nie gesehen haben" und es entstünden seltene unbekannte Wörter, so Sakaguchi. Ebenso scheitert ChatGPT oft daran, kulturell angemessene und höfliche Kommunikationsnormen bei der Generierung von Antworten auf Japanisch anzuwenden.
Das englische Alphabet hat 26 Buchstaben, das japanische mindestens zwei Gruppen von 48 Zeichen, ergänzt durch 2.136 häufig verwendete chinesische Schriftzeichen (Kanji). Hinzu kommen unterschiedliche Aussprachen pro Zeichen und weitere ca. 50.000 selten verwendete Kanji-Zeichen.
Eigener LLM-Benchmark für Japan
Um die Sensibilität von LLMs für die japanische Kultur zu messen, haben die Forscher die Rakuda-Rangliste entwickelt, die anhand von mit GPT-4 generierten Fragen misst, wie gut LLMs spezifisch japanische Fragen beantworten können. Das derzeit beste offene japanische LLM belegt in dieser Rangliste den vierten Platz. Angeführt wird die Liste von GPT-3.5, wobei GPT-4 seinen Vorgänger noch deutlich übertreffen dürfte.
Das japanische LLM, das vom Tokyo Institute of Technology, der Tohoku University, Fujitsu und dem staatlich geförderten RIKEN entwickelt wird, soll im nächsten Jahr als Open Source veröffentlicht werden und über mindestens 30 Milliarden Parameter verfügen.
Ein wesentlich größeres Modell wird vom japanischen Ministerium für Bildung, Kultur, Sport, Wissenschaft und Technologie entwickelt. Es soll ebenfalls in japanischer Sprache und für wissenschaftliche Anwendungen optimiert werden: Basierend auf veröffentlichten Forschungsarbeiten soll es neue Hypothesen generieren und so die Forschung beschleunigen. Die Kosten für das Modell belaufen sich auf rund 200 Millionen US-Dollar. Bis zur allgemeinen Einführung im Jahr 2031 wird es noch einige Zeit dauern.