Inhalt
summary Zusammenfassung

Ein japanisches Forschungsteam trainiert mit dem Supercomputer Fugaku das große Sprachmodell Fugaku-LLM. Es soll besonders gut an die japanische Sprache und Kultur angepasst sein.

Große Sprachmodelle wie GPT-4 von OpenAI werden hauptsächlich von US-Firmen entwickelt und sind für Englisch optimiert. Japanische Forscher wollen dem ein eigenes Modell entgegensetzen, das auf die Besonderheiten der japanischen Sprache und Kultur zugeschnitten ist.

Bisherige Sprachmodelle haben oft Probleme mit den Feinheiten der japanischen Sprache und Kultur. So verwechseln sie seltene Schriftzeichen oder wenden kulturelle Kommunikationsnormen nicht angemessen an.

Das Fugaku-LLM, an dem ein Team aus Forschern des Tokyo Institute of Technology, der Tohoku University, von Fujitsu, RIKEN, der Nagoya University sowie der Firmen CyberAgent und Kotoba Technologies arbeitet, soll dies ändern.

Anzeige
Anzeige

Das Modell soll natürliche Dialoge führen, die die japanische Höflichkeitssprache und andere Merkmale der japanischen Sprache berücksichtigen.

Das Besondere: Rund 60 Prozent der Trainingsdaten sind auf Japanisch, der Rest auf Englisch sowie mathematische und Code-Daten.

Im Vergleich zu Modellen, die auf Basis bestehender englischer Modelle nur für Japanisch nachtrainiert werden, hat Fugaku-LLM einen Großteil seiner Informationen direkt auf Japanisch gelernt.

Für das Training nutzen die Wissenschaftler den japanischen Supercomputer Fugaku. Mit 13.824 Rechenknoten und 380 Milliarden Token, die für das Training verwendet werden, verfügt Fugaku-LLM über 13 Milliarden Parameter. Der Fugaku-Computer verwendet von Fujitsu entwickelte CPUs anstelle von GPUs.

Nach Angaben des Forscherteams ist es das beste offene Modell, das in Japan mit eigenen Daten entwickelt wurde. Insbesondere bei Aufgaben aus den Geistes- und Sozialwissenschaften erreicht es demnach eine hohe Benchmark-Punktzahl von 9,18.

Empfehlung

Die Sprachmodelle und der Quellcode von Fugaku-LLM sind bei HuggingFace und bei Github sowie über das Fujitsu Research Portal verfügbar. Es ist für Forschung und kommerzielle Zwecke gedacht, solange sich die Nutzer an die Lizenz halten.

Die japanische Regierung und Unternehmen wie NEC, Fujitsu und SoftBank investieren hunderte Millionen Dollar in die Entwicklung eigener Sprachmodelle. Sie wollen mit kultursensibleren Modellen die Forschung im eigenen Land voranbringen und unabhängiger von den großen US-Tech-Konzernen werden.

Auch OpenAI hat kürzlich eine für Japanisch optimierte Version von GPT-4 veröffentlicht, das bereits in Projekten mit der japanischen Regierung zum Einsatz kommt.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Ein interdisziplinäres japanisches Forschungsteam hat mit Hilfe des Fujitsu-Supercomputers Fugaku das große Sprachmodell Fugaku-LLM speziell für die japanische Sprache und Kultur trainiert.
  • Im Gegensatz zu bestehenden Modellen, die hauptsächlich für Englisch optimiert sind, hat Fugaku-LLM einen Großteil seiner Informationen direkt auf Japanisch gelernt und berücksichtigt Feinheiten wie die japanische Höflichkeitssprache.
  • Mit 13 Milliarden Parametern und einer hohen Benchmark-Punktzahl für geisteswissenschaftliche Aufgaben ist Fugaku-LLM nach Angaben des Forscherteams das beste offene Modell, das in Japan mit eigenen Daten entwickelt wurde. Es soll die Forschung im Land vorantreiben und Unabhängigkeit von amerikanischen Technologiekonzernen schaffen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!