Fugaku-LLM ist ein für japanisch optimiertes Open-Source-Sprachmodell

Ein japanisches Forschungsteam trainiert mit dem Supercomputer Fugaku das große Sprachmodell Fugaku-LLM. Es soll besonders gut an die japanische Sprache und Kultur angepasst sein.

Große Sprachmodelle wie GPT-4 von OpenAI werden hauptsächlich von US-Firmen entwickelt und sind für Englisch optimiert. Japanische Forscher wollen dem ein eigenes Modell entgegensetzen, das auf die Besonderheiten der japanischen Sprache und Kultur zugeschnitten ist.

Bisherige Sprachmodelle haben oft Probleme mit den Feinheiten der japanischen Sprache und Kultur. So verwechseln sie seltene Schriftzeichen oder wenden kulturelle Kommunikationsnormen nicht angemessen an.

Das Fugaku-LLM, an dem ein Team aus Forschern des Tokyo Institute of Technology, der Tohoku University, von Fujitsu, RIKEN, der Nagoya University sowie der Firmen CyberAgent und Kotoba Technologies arbeitet, soll dies ändern.

Das Modell soll natürliche Dialoge führen, die die japanische Höflichkeitssprache und andere Merkmale der japanischen Sprache berücksichtigen.

Das Besondere: Rund 60 Prozent der Trainingsdaten sind auf Japanisch, der Rest auf Englisch sowie mathematische und Code-Daten.

Im Vergleich zu Modellen, die auf Basis bestehender englischer Modelle nur für Japanisch nachtrainiert werden, hat Fugaku-LLM einen Großteil seiner Informationen direkt auf Japanisch gelernt.

Für das Training nutzen die Wissenschaftler den japanischen Supercomputer Fugaku. Mit 13.824 Rechenknoten und 380 Milliarden Token, die für das Training verwendet werden, verfügt Fugaku-LLM über 13 Milliarden Parameter. Der Fugaku-Computer verwendet von Fujitsu entwickelte CPUs anstelle von GPUs.

Nach Angaben des Forscherteams ist es das beste offene Modell, das in Japan mit eigenen Daten entwickelt wurde. Insbesondere bei Aufgaben aus den Geistes- und Sozialwissenschaften erreicht es demnach eine hohe Benchmark-Punktzahl von 9,18.

Empfehlung

KI in der Praxis

Langeweile als juristischer Vorteil: Wie Chatbots vor Gericht helfen könnten

Die Sprachmodelle und der Quellcode von Fugaku-LLM sind bei HuggingFace und bei Github sowie über das Fujitsu Research Portal verfügbar. Es ist für Forschung und kommerzielle Zwecke gedacht, solange sich die Nutzer an die Lizenz halten.

Die japanische Regierung und Unternehmen wie NEC, Fujitsu und SoftBank investieren hunderte Millionen Dollar in die Entwicklung eigener Sprachmodelle. Sie wollen mit kultursensibleren Modellen die Forschung im eigenen Land voranbringen und unabhängiger von den großen US-Tech-Konzernen werden.

Auch OpenAI hat kürzlich eine für Japanisch optimierte Version von GPT-4 veröffentlicht, das bereits in Projekten mit der japanischen Regierung zum Einsatz kommt.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Fugaku-LLM ist ein für japanisch optimiertes Open-Source-Sprachmodell

Langeweile als juristischer Vorteil: Wie Chatbots vor Gericht helfen könnten

xAI korrigiert Grok: Chatbot soll nicht mehr Elon Musks Meinungen als Referenz nehmen

Grok führt interaktive KI-Avatare für iOS-App ein

Google macht NotebookLM zur Content-Plattform mit kuratierten Inhalten

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Fugaku-LLM ist ein für japanisch optimiertes Open-Source-Sprachmodell

Artikel teilen

Bankverbindung