Inhalt
summary Zusammenfassung

Microsoft-Forscher haben mit SpreadsheetLLM  eine Methode entwickelt, um Sprachmodelle für die Analyse von Tabellenkalkulationen zu optimieren.

Anzeige

Die Forscher erklären, dass herkömmliche Tabellenkalkulationen oft zu groß und komplex für KI-Modelle sind. SpreadsheetLLM löst dieses Problem, indem es die Daten in ein kompakteres Format umwandelt und so Sprachmodelle für viele wissenschaftliche und finanzielle Anwendungsfälle nutzbar machen könnte.

"Unser Ansatz reduziert die Datenmenge um bis zu 96 Prozent, ohne dass wichtige Informationen verloren gehen", heißt es in dem Artikel. Dadurch können KI-Systeme auch sehr große Tabellenkalkulationen analysieren, was bisher nicht möglich war.

Bild: Microsoft

Die neue Methode basiert auf drei Haupttechniken:

Anzeige
Anzeige
  • Strukturelle Anker: Das System identifiziert wichtige Bereiche in der Tabellenkalkulation, die die Gesamtstruktur repräsentieren. Weniger wichtige Daten werden entfernt.
  • Invertierte Indizierung: Statt jede Zelle einzeln zu speichern, werden gleiche Werte zusammengefasst und mit ihrer Position verknüpft. Das spart Speicherplatz.
  • Datenformat-Aggregation: Ähnliche Zahlenformate werden gruppiert, anstatt jeden Wert einzeln zu speichern.

Mit diesen Techniken erfasst das System die wesentlichen Informationen einer Tabellenkalkulation, ohne jede einzelne Zelle speichern zu müssen.

SpreadsheetLLM verbessert Genauigkeit um bis zu 75 Prozent

Die Forscher testeten ihre Methode mit verschiedenen KI-Modellen, darunter GPT-4 von OpenAI und Open-Source-Modelle wie Llama 2. Bei der Aufgabe, Tabellen in Tabellenkalkulationen zu erkennen, erreichte das System eine Genauigkeit von 79 Prozent - eine Verbesserung um 13 Prozentpunkte gegenüber dem bisherigen Bestwert.

Vor allem bei sehr großen Tabellenkalkulationen zeigte sich der Vorteil der neuen Methode. Bei den größten getesteten Dateien verbesserte sich die Genauigkeit im Vergleich zu herkömmlichen Techniken um 75 Prozentpunkte, da die Token-Limits der Sprachmodelle nicht mehr gesprengt werden.

Bild: Microsoft

Die Forscher entwickelten auch eine Technik namens "Chain of Spreadsheet" (CoS), um komplexe Anfragen an Tabellenkalkulationen zu beantworten. Dabei wird die Aufgabe in zwei Schritte unterteilt: Zuerst identifiziert das System den relevanten Tabellenbereich, dann generiert es die Antwort. Mit dieser Methode erreichte das System bei Frage-Antwort-Aufgaben zu Tabellenkalkulationen eine Genauigkeit von 74 Prozent.

Die Wissenschaftler räumen ein, dass ihre Methode noch Grenzen hat. So werden derzeit keine Formatierungsdetails wie Hintergrundfarben berücksichtigt, die zusätzliche Informationen liefern könnten. Auch bei der semantischen Verdichtung von Textzellen sehen die Forscher noch Verbesserungspotenzial.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft-Forscher haben SpreadsheetLLM entwickelt, eine Methode zur Optimierung von Sprachmodellen für die Analyse von Tabellenkalkulationen. Sie reduziert die Datenmenge um bis zu 96 Prozent, ohne wichtige Informationen zu verlieren.
  • Die Methode basiert auf drei Haupttechniken: Strukturelle Anker identifizieren wichtige Bereiche, invertierte Indizierung fasst gleiche Werte zusammen, und Datenformat-Aggregation gruppiert ähnliche Zahlenformate.
  • In Tests verbesserte SpreadsheetLLM die Genauigkeit bei der Tabellenerkennung um 13 Prozentpunkte auf 79 Prozent. Bei sehr großen Tabellenkalkulationen stieg die Genauigkeit sogar um 75 Prozentpunkte im Vergleich zu herkömmlichen Methoden.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!