Forschende haben einen neuen Datensatz entwickelt, um die Leistung von KI-Modellen bei der Beantwortung komplexer Fragen zu Tabellendaten zu bewerten. Selbst fortschrittliche Systeme schneiden dabei deutlich schlechter ab als Menschen.
Ein Forschungsteam der Beihang Universität in China hat mit TableBench einen neuen Benchmark vorgestellt, der die Fähigkeiten von KI-Modellen im Umgang mit Tabellendaten auf die Probe stellt. Der Datensatz umfasst 886 Frage-Antwort-Paare aus 18 verschiedenen Kategorien und deckt damit ein breites Spektrum an Aufgaben ab, darunter Faktenüberprüfung, numerische Berechnungen, Datenanalyse und Visualisierung.
Laut den Forschenden soll TableBench die Lücke zwischen akademischen Benchmarks und realen Anwendungsszenarien schließen. Die durchschnittliche Anzahl der "Denkschritte", die für die Beantwortung einer Frage erforderlich sind, liegt bei 6,26 - deutlich höher als bei vergleichbaren Datensätzen.
Die Wissenschaftler evaluierten über 30 große Sprachmodelle auf TableBench, darunter sowohl Open-Source- als auch proprietäre Systeme. Selbst das leistungsfähige Modell GPT-4o erreichte nur etwa 54 % der menschlichen Leistung. Claude-Modelle wurden nicht getestet.
Die Ergebnisse zeigen, dass selbst fortschrittliche KI-Modelle noch erheblichen Verbesserungsbedarf haben, um den Anforderungen realer Anwendungen gerecht zu werden.
Microsoft arbeitet an Lösungen
Parallel zu TableBench stellten die Wissenschaftler auch TableInstruct vor, einen Trainingsdatensatz mit etwa 20.000 Beispielen. Damit trainierten sie ein eigenes Modell namens TABLELLM, das eine Leistung vergleichbar mit GPT-3.5 erzielte.
Forscher von Microsoft haben zudem kürzlich mit SpreadsheetLLM eine Methode vorgestellt, die die Leistung von Sprachmodellen in der Tabellenverarbeitung verbessern kann. Der neue Benchmark TableBench offenbart jedoch, dass es noch ein weiter Weg ist, bis KI-Systeme in diesem Bereich mit menschlichen Fähigkeiten mithalten können.