Inhalt
summary Zusammenfassung

Forscher haben eine Sammlung aus drei auf afrikanischen Sprachen basierten Datensätze zur Evaluierung von großen Sprachmodellen vorgestellt. Das IrokoBench getaufte Benchmark-Set soll eine Lücke in der KI-Forschung schließen.

Die meisten großen aktuellen Sprachmodelle werden primär auf ressourcenreichen Sprachen wie Englisch trainiert. Nach Ansicht der Forscher der Masakhane-Initiative führt dies zu einer suboptimalen Leistung in Sprachen, die beim Training nicht berücksichtigt wurden - insbesondere in afrikanischen Sprachen. Die Initiative hat es sich zur Aufgabe gemacht, die NLP-Forschung in afrikanischen Sprachen voranzutreiben.

Zwar gibt es bereits Bemühungen, Benchmarks für afrikanische Sprachen zu erstellen. Diese beziehen sich jedoch meist auf einfachere Aufgaben oder sind auf enge Bereiche wie maschinelle Übersetzung oder Leseverständnis beschränkt.

Folglich spiegeln die aktuellen multilingualen Evaluierungen von Sprachmodellen die Fähigkeiten in komplexen, wissensintensiven Aufgaben für die meisten afrikanischen Sprachen nicht genau wider, kritisieren die Forscher.

Anzeige
Anzeige

Die wenigen verfügbaren umfassenden Evaluierungen über verschiedene Sprachen hinweg nutzten daher oft maschinell übersetzte englische Benchmarks. Dieser Ansatz leide unter Rauschen und Verzerrungen.

IrokoBench: Drei Datensätze für komplexe Aufgaben in 16 afrikanischen Sprachen

Mit IrokoBench wollen die Forscher sowohl die Vielfalt als auch die Breite der Evaluationsabdeckung verbessern. Die Sammlung besteht aus drei Datensätzen, die von menschlichen Übersetzern in 16 afrikanische Sprachen übersetzt wurden:

  • AfriXNLI für Natural Language Inference (NLI)
  • AfriMMLU für Multiple-Choice Knowledge Question Answering aus Wissensgebieten wie Geographie, Recht oder Mathematik.
  • AfriMGSM für mathematisches Schlussfolgern anhand mathematischer Textaufgaben.

Die ausgewählten Sprachen decken verschiedene Regionen und Sprachfamilien Afrikas ab. Darunter befinden sich sehr ressourcenarme Sprachen mit weniger als 50 Millionen digitalen Zeichen wie Ewe, Lingala, Luganda, Twi und Wolof.

Die Forscher führten eine groß angelegte Evaluierung auf IrokoBench durch - mit 10 öffentlich zugänglichen und 4 proprietären Sprachmodellen wie OpenAIs GPT-4o in Zero-Shot-, Few-Shot- und Translate-Testszenarien, bei denen die Testdatensätze ins Englische übersetzt wurden.

Erhebliche Performance-Lücken zwischen Sprachen

Die Evaluierung ergab einen großen Leistungsunterschied von durchschnittlich etwa 45 Prozent zwischen ressourcenreichen Sprachen wie Englisch und den getesteten afrikanischen Sprachen - über alle evaluierten Sprachmodelle hinweg.

Empfehlung

Selbst proprietäre Modelle, die in afrikanischen Sprachen tendenziell besser abschnitten als offene Modelle, zeigten deutliche Leistungseinbußen. Die mathematischen Deduktionsaufgaben in AfriMGSM erwiesen sich als am schwierigsten, gefolgt von AfriMMLU und AfriXNLI.

"Diese Ergebnisse unterstreichen die Notwendigkeit einer gezielten Entwicklung und Anpassung von LLMs, um afrikanische Sprachen besser zu unterstützen, insbesondere solche mit begrenzten Datenressourcen", schlussfolgern die Autoren.

Das IrokoBench-Projekt wurde auf HuggingFace veröffentlicht. Die Initiatoren hoffen, damit die multilinguale Evaluierung und Erforschung von Sprachmodellen voranzutreiben.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der Masakhane-Initiative haben mit IrokoBench eine Sammlung von drei Datensätzen zur Evaluierung von Sprachmodellen in 16 afrikanischen Sprachen vorgestellt, um eine Lücke in der KI-Forschung zu schließen.
  • IrokoBench besteht aus von Menschen übersetzten Datensätzen für Natural Language Inference (AfriXNLI), Multiple-Choice Knowledge Question Answering (AfriMMLU) und mathematisches Schlussfolgern (AfriMGSM) in Sprachen wie Ewe, Lingala, Luganda, Twi und Wolof.
  • Die Evaluierung von 14 Sprachmodellen auf IrokoBench ergab einen durchschnittlichen Leistungsunterschied von etwa 45 Prozent zwischen ressourcenreichen Sprachen wie Englisch und den getesteten afrikanischen Sprachen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!