Inhalt
summary Zusammenfassung

Forschende haben einen neuen Datensatz entwickelt, um die Leistung von KI-Modellen bei der Beantwortung komplexer Fragen zu Tabellendaten zu bewerten. Selbst fortschrittliche Systeme schneiden dabei deutlich schlechter ab als Menschen.

Anzeige

Ein Forschungsteam der Beihang Universität in China hat mit TableBench einen neuen Benchmark vorgestellt, der die Fähigkeiten von KI-Modellen im Umgang mit Tabellendaten auf die Probe stellt. Der Datensatz umfasst 886 Frage-Antwort-Paare aus 18 verschiedenen Kategorien und deckt damit ein breites Spektrum an Aufgaben ab, darunter Faktenüberprüfung, numerische Berechnungen, Datenanalyse und Visualisierung.

Laut den Forschenden soll TableBench die Lücke zwischen akademischen Benchmarks und realen Anwendungsszenarien schließen. Die durchschnittliche Anzahl der "Denkschritte", die für die Beantwortung einer Frage erforderlich sind, liegt bei 6,26 - deutlich höher als bei vergleichbaren Datensätzen.

Bild: Wu, Yang et al.

Die Wissenschaftler evaluierten über 30 große Sprachmodelle auf TableBench, darunter sowohl Open-Source- als auch proprietäre Systeme. Selbst das leistungsfähige Modell GPT-4o erreichte nur etwa 54 % der menschlichen Leistung. Claude-Modelle wurden nicht getestet.

Anzeige
Anzeige

Die Ergebnisse zeigen, dass selbst fortschrittliche KI-Modelle noch erheblichen Verbesserungsbedarf haben, um den Anforderungen realer Anwendungen gerecht zu werden.

Microsoft arbeitet an Lösungen

Parallel zu TableBench stellten die Wissenschaftler auch TableInstruct vor, einen Trainingsdatensatz mit etwa 20.000 Beispielen. Damit trainierten sie ein eigenes Modell namens TABLELLM, das eine Leistung vergleichbar mit GPT-3.5 erzielte.

Forscher von Microsoft haben zudem kürzlich mit SpreadsheetLLM eine Methode vorgestellt, die die Leistung von Sprachmodellen in der Tabellenverarbeitung verbessern kann. Der neue Benchmark TableBench offenbart jedoch, dass es noch ein weiter Weg ist, bis KI-Systeme in diesem Bereich mit menschlichen Fähigkeiten mithalten können.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der Beihang Universität haben TableBench entwickelt, einen neuen Benchmark zur Bewertung von KI-Modellen bei der Beantwortung komplexer Fragen zu Tabellendaten.
  • Bei der Evaluierung von über 30 großen Sprachmodellen auf TableBench erreichte selbst das leistungsfähigste Modell, GPT-4o, nur etwa 54 % der menschlichen Leistung.
  • Parallel dazu stellten die Forscher TableInstruct vor, einen Trainingsdatensatz mit etwa 20.000 Beispielen. Damit trainierten sie TABLELLM, ein eigenes Modell, das eine Leistung vergleichbar mit GPT-3.5 erzielte.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!