Eine neue Studie zeigt, dass die Leistung von KI-Sprachmodellen bei komplexen Aufgaben durch ihre schwächste Fähigkeit begrenzt wird. Dies hat wichtige Implikationen für die Entwicklung zukünftiger KI-Systeme.
Laut einer neuen Studie von Forschern von Meta AI und der University of Illinois Urbana-Champaign folgen Large Language Models (LLMs) bei komplexen Aufgaben dem "Gesetz des schwächsten Glieds". Die Leistung der Modelle wird demnach durch ihre am wenigsten entwickelte Fähigkeit begrenzt.
Die Forscher entwickelten einen umfassenden Benchmark namens CrossEval, um sowohl einzelne als auch kombinierte Fähigkeiten von LLMs zu bewerten. Dafür definierten sie sieben Kernfähigkeiten wie Englisch, logisches Denken und Programmieren sowie sieben häufige Kombinationen dieser Fähigkeiten, etwa Programmieren und logisches Denken, Werkzeugnutzung und Programmieren oder Spanisch und Bilderkennung.
"Wir haben festgestellt, dass die Leistung bei kombinierten Fähigkeiten typischerweise durch die schwächste Fähigkeit eingeschränkt wird", erklären die Autoren. Von 58 untersuchten Kombinationen lagen 38 unter dem Niveau beider Einzelfähigkeiten, während 20 zwischen den beiden, aber näher an der schwächeren Fähigkeit lagen.
Dieses Muster zeigte sich konsistent über verschiedene LLMs und Evaluierungsmethoden hinweg. Die Studie ergab auch, dass LLMs bei kombinierten Fähigkeiten generell schlechter abschneiden als bei einzelnen Fähigkeiten. Die Forscher sehen darin ein Zeichen dafür, dass aktuelle Modelle stark für einzelne Fähigkeiten optimiert sind, während die Integration verschiedener Fähigkeiten vernachlässigt wurde.
Implikationen für KI-Entwicklung
Die Ergebnisse haben wichtige Implikationen für die Entwicklung zukünftiger KI-Systeme. "Angesichts der Tatsache, dass LLMs bei kombinierten Fähigkeiten generell unterdurchschnittlich abschneiden, sollte die Identifizierung und Verbesserung dieser Schwachstellen eine Priorität für zukünftige Forschung und Entwicklung sein", betonen die Autoren.
Die Forscher schlagen vor, dass KI-Entwickler gezielt an der Verbesserung der schwächsten Fähigkeiten arbeiten sollten, um die Gesamtleistung bei komplexen Aufgaben zu optimieren. Dies könne effektiver sein als eine allgemeine Verbesserung aller Fähigkeiten.
Der Benchmark und mehr Details sind auf GitHub verfügbar.