Forscher haben eine Sammlung aus drei auf afrikanischen Sprachen basierten Datensätze zur Evaluierung von großen Sprachmodellen vorgestellt. Das IrokoBench getaufte Benchmark-Set soll eine Lücke in der KI-Forschung schließen.
Die meisten großen aktuellen Sprachmodelle werden primär auf ressourcenreichen Sprachen wie Englisch trainiert. Nach Ansicht der Forscher der Masakhane-Initiative führt dies zu einer suboptimalen Leistung in Sprachen, die beim Training nicht berücksichtigt wurden - insbesondere in afrikanischen Sprachen. Die Initiative hat es sich zur Aufgabe gemacht, die NLP-Forschung in afrikanischen Sprachen voranzutreiben.
Zwar gibt es bereits Bemühungen, Benchmarks für afrikanische Sprachen zu erstellen. Diese beziehen sich jedoch meist auf einfachere Aufgaben oder sind auf enge Bereiche wie maschinelle Übersetzung oder Leseverständnis beschränkt.
Folglich spiegeln die aktuellen multilingualen Evaluierungen von Sprachmodellen die Fähigkeiten in komplexen, wissensintensiven Aufgaben für die meisten afrikanischen Sprachen nicht genau wider, kritisieren die Forscher.
Die wenigen verfügbaren umfassenden Evaluierungen über verschiedene Sprachen hinweg nutzten daher oft maschinell übersetzte englische Benchmarks. Dieser Ansatz leide unter Rauschen und Verzerrungen.
IrokoBench: Drei Datensätze für komplexe Aufgaben in 16 afrikanischen Sprachen
Mit IrokoBench wollen die Forscher sowohl die Vielfalt als auch die Breite der Evaluationsabdeckung verbessern. Die Sammlung besteht aus drei Datensätzen, die von menschlichen Übersetzern in 16 afrikanische Sprachen übersetzt wurden:
- AfriXNLI für Natural Language Inference (NLI)
- AfriMMLU für Multiple-Choice Knowledge Question Answering aus Wissensgebieten wie Geographie, Recht oder Mathematik.
- AfriMGSM für mathematisches Schlussfolgern anhand mathematischer Textaufgaben.
Die ausgewählten Sprachen decken verschiedene Regionen und Sprachfamilien Afrikas ab. Darunter befinden sich sehr ressourcenarme Sprachen mit weniger als 50 Millionen digitalen Zeichen wie Ewe, Lingala, Luganda, Twi und Wolof.
Die Forscher führten eine groß angelegte Evaluierung auf IrokoBench durch - mit 10 öffentlich zugänglichen und 4 proprietären Sprachmodellen wie OpenAIs GPT-4o in Zero-Shot-, Few-Shot- und Translate-Testszenarien, bei denen die Testdatensätze ins Englische übersetzt wurden.
Erhebliche Performance-Lücken zwischen Sprachen
Die Evaluierung ergab einen großen Leistungsunterschied von durchschnittlich etwa 45 Prozent zwischen ressourcenreichen Sprachen wie Englisch und den getesteten afrikanischen Sprachen - über alle evaluierten Sprachmodelle hinweg.
Selbst proprietäre Modelle, die in afrikanischen Sprachen tendenziell besser abschnitten als offene Modelle, zeigten deutliche Leistungseinbußen. Die mathematischen Deduktionsaufgaben in AfriMGSM erwiesen sich als am schwierigsten, gefolgt von AfriMMLU und AfriXNLI.
"Diese Ergebnisse unterstreichen die Notwendigkeit einer gezielten Entwicklung und Anpassung von LLMs, um afrikanische Sprachen besser zu unterstützen, insbesondere solche mit begrenzten Datenressourcen", schlussfolgern die Autoren.
Das IrokoBench-Projekt wurde auf HuggingFace veröffentlicht. Die Initiatoren hoffen, damit die multilinguale Evaluierung und Erforschung von Sprachmodellen voranzutreiben.