Jais ist ein offenes Sprachmodell mit Schwerpunkt auf der arabischen Sprache und das derzeit beste frei verfügbare seiner Art.
Forschende aus den Vereinigten Arabischen Emiraten stellen in Zusammenarbeit mit Cerebras zwei neue offene Sprachmodelle vor: Jais und Jais-chat. Die Modelle wurden mit arabischer und englischer Sprache und Code trainiert und übertreffen bestehende Open-Source-Modelle für Arabisch deutlich.
Jais ist ein 13 Milliarden Parameter umfassendes Modell, das mit 395 Milliarden Tokens vortrainiert wurde, davon 116 Milliarden arabische Tokens. Der Jais-Chat wurde mit weiteren 10 Millionen Anweisung/Antwort-Paaren verfeinert und übertrifft alle bestehenden öffentlichen arabischen/mehrsprachigen Chatbots.
Die Modelle sind die ersten arabisch-zentrierten offenen Modelle dieser Größenordnung.
Jais kann in einigen Aufgaben mit ChatGPT mithalten
Als Trainingsdaten wurden arabische Webseiten, Bücher, Nachrichten und Wikipedia verwendet, wobei alle Daten vor dem Training gefiltert wurden. Die 232 Milliarden Token englischer Daten aus The Pile von EleutherAI sollen die begrenzt verfügbaren arabischen Daten kompensieren. Zusätzlich verwendet das Team 46 Milliarden Code-Token.
In Benchmarks übertreffen Jais und Jais-chat nach Angaben des Teams bestehende, frei verfügbare arabische Modelle um 11 bis 15 Punkte in der Genauigkeit und sind konkurrenzfähig mit Metas LLaMa2 für die englische Sprache. Kommerzielle Modelle wie OpenAIs ChatGPT oder Anthropics Claude liegen in den Benchmarks im Durchschnitt immer noch vorne, sind aber auch deutlich größer. Bei einigen Aufgaben, wie z.B. Schreiben, liegen Jais und Jais-chat jedoch auf dem Niveau von ChatGPT.
Das Team liefert für Jais-chat auch eine Reihe weiterer Sicherheitsmechanismen wie Filter und Klassifikatoren für unerwünschte Anfragen und Ausgaben.
Eine weitere Besonderheit des Modells: Es wurde nicht auf Nvidia-GPUs, sondern auf Cerebras CS-2-Systemen trainiert. Das Unternehmen stellt einen KI-Chip in Wafer-Größe her, der in die CS-2-Systeme eingebaut wird.
Jais und Jais-chat sind auf Hugging Face verfügbar und kann auf Arabic-GPT ausprobiert werden.