GPT-4 und Co. zeigen in afrikanischen Sprachen 45 Prozent schlechtere Leistung

Midjourney prompted by THE DECODER

Forscher haben eine Sammlung aus drei auf afrikanischen Sprachen basierten Datensätze zur Evaluierung von großen Sprachmodellen vorgestellt. Das IrokoBench getaufte Benchmark-Set soll eine Lücke in der KI-Forschung schließen.

Die meisten großen aktuellen Sprachmodelle werden primär auf ressourcenreichen Sprachen wie Englisch trainiert. Nach Ansicht der Forscher der Masakhane-Initiative führt dies zu einer suboptimalen Leistung in Sprachen, die beim Training nicht berücksichtigt wurden - insbesondere in afrikanischen Sprachen. Die Initiative hat es sich zur Aufgabe gemacht, die NLP-Forschung in afrikanischen Sprachen voranzutreiben.

Zwar gibt es bereits Bemühungen, Benchmarks für afrikanische Sprachen zu erstellen. Diese beziehen sich jedoch meist auf einfachere Aufgaben oder sind auf enge Bereiche wie maschinelle Übersetzung oder Leseverständnis beschränkt.

Folglich spiegeln die aktuellen multilingualen Evaluierungen von Sprachmodellen die Fähigkeiten in komplexen, wissensintensiven Aufgaben für die meisten afrikanischen Sprachen nicht genau wider, kritisieren die Forscher.

Die wenigen verfügbaren umfassenden Evaluierungen über verschiedene Sprachen hinweg nutzten daher oft maschinell übersetzte englische Benchmarks. Dieser Ansatz leide unter Rauschen und Verzerrungen.

IrokoBench: Drei Datensätze für komplexe Aufgaben in 16 afrikanischen Sprachen

Mit IrokoBench wollen die Forscher sowohl die Vielfalt als auch die Breite der Evaluationsabdeckung verbessern. Die Sammlung besteht aus drei Datensätzen, die von menschlichen Übersetzern in 16 afrikanische Sprachen übersetzt wurden:

AfriXNLI für Natural Language Inference (NLI)
AfriMMLU für Multiple-Choice Knowledge Question Answering aus Wissensgebieten wie Geographie, Recht oder Mathematik.
AfriMGSM für mathematisches Schlussfolgern anhand mathematischer Textaufgaben.

Die ausgewählten Sprachen decken verschiedene Regionen und Sprachfamilien Afrikas ab. Darunter befinden sich sehr ressourcenarme Sprachen mit weniger als 50 Millionen digitalen Zeichen wie Ewe, Lingala, Luganda, Twi und Wolof.

Die Forscher führten eine groß angelegte Evaluierung auf IrokoBench durch - mit 10 öffentlich zugänglichen und 4 proprietären Sprachmodellen wie OpenAIs GPT-4o in Zero-Shot-, Few-Shot- und Translate-Testszenarien, bei denen die Testdatensätze ins Englische übersetzt wurden.

Erhebliche Performance-Lücken zwischen Sprachen

Die Evaluierung ergab einen großen Leistungsunterschied von durchschnittlich etwa 45 Prozent zwischen ressourcenreichen Sprachen wie Englisch und den getesteten afrikanischen Sprachen - über alle evaluierten Sprachmodelle hinweg.

Empfehlung

KI-Forschung

Metas KI-Chef nennt generative KI eine Sackgasse - und liefert mit V-JEPA 2 die Alternative

Selbst proprietäre Modelle, die in afrikanischen Sprachen tendenziell besser abschnitten als offene Modelle, zeigten deutliche Leistungseinbußen. Die mathematischen Deduktionsaufgaben in AfriMGSM erwiesen sich als am schwierigsten, gefolgt von AfriMMLU und AfriXNLI.

"Diese Ergebnisse unterstreichen die Notwendigkeit einer gezielten Entwicklung und Anpassung von LLMs, um afrikanische Sprachen besser zu unterstützen, insbesondere solche mit begrenzten Datenressourcen", schlussfolgern die Autoren.

Das IrokoBench-Projekt wurde auf HuggingFace veröffentlicht. Die Initiatoren hoffen, damit die multilinguale Evaluierung und Erforschung von Sprachmodellen voranzutreiben.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

GPT-4 und Co. zeigen in afrikanischen Sprachen 45 Prozent schlechtere Leistung

IrokoBench: Drei Datensätze für komplexe Aufgaben in 16 afrikanischen Sprachen

Erhebliche Performance-Lücken zwischen Sprachen

Metas KI-Chef nennt generative KI eine Sackgasse - und liefert mit V-JEPA 2 die Alternative

Meta bietet Apple-KI-Spitzenkraft Gehaltspaket über mehr als 200 Millionen US-Dollar

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Schon wieder Signal: Unbekannte imitieren mit KI-Stimme US-Außenminister Rubio in Chats

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

GPT-4 und Co. zeigen in afrikanischen Sprachen 45 Prozent schlechtere Leistung

IrokoBench: Drei Datensätze für komplexe Aufgaben in 16 afrikanischen Sprachen

Erhebliche Performance-Lücken zwischen Sprachen

Artikel teilen

Bankverbindung