Können wir die Expertise großer Sprachmodelle nutzen, um unvollständige Datensätze in der Datenwissenschaft zu vervollständigen, ohne auf menschliche Experten angewiesen zu sein? Ein Gastbeitrag von Kai Spriestersbach.
In den Datenwissenschaften stehen Forscher oft vor der Herausforderung, mit unvollständigen Datensätzen zu arbeiten. Viele etablierte Algorithmen lassen eine Verarbeitung unvollständiger Datenreihen schlicht nicht zu. Traditionell wenden sich Data Scientists daher an Experten, um diese Lücken in den Daten mit Wissen der Experten zu füllen – ein Prozess, der jedoch zeitaufwändig und nicht immer praktikabel ist.
Doch was, wenn eine Maschine diese Expertenrolle übernehmen könnte?
Unsere Forschungsgruppe hat diese Fragestellung in den Mittelpunkt gerückt und untersucht, ob Große Sprachmodelle (LLMs) als digitale Experten fungieren können. Diese Modelle, trainiert auf einer gigantischen Textmenge, besitzen potenziell ein tiefes Verständnis für diverse Themenfelder – von medizinischen Daten bis hin zu sozialwissenschaftlichen Fragestellungen.
Durch den Vergleich der Antworten der LLMs mit realen Daten und etablierten statistischen Verfahren zur Behandlung von Datenlücken haben wir spannende Einblicke gewonnen. Unsere Ergebnisse zeigen, dass LLMs in vielen Fällen ähnlich präzise Einschätzungen liefern können wie traditionelle Methoden, ohne auf menschliche Experten angewiesen zu sein.
Zwei Verfahren in der Datenanalyse
Bei der Analyse von Daten, sei es in der Medizin, Ökonomie oder Umweltforschung, stößt man oft auf das Problem unvollständiger Informationen. Hier kommen zwei Schlüsseltechniken zum Einsatz: Die Ermittlung von Vorwissen (Prior Elicitation) und die Ergänzung fehlender Daten (Data Imputation).
Prior Elicitation, also die Gewinnung von Vorabinformationen, bezieht sich darauf, bereits vorhandenes Expertenwissen systematisch zu sammeln, um Annahmen über bestimmte Parameter in unseren Modellen zu treffen.
Data Imputation hingegen, also die Ergänzung fehlender Daten, kommt ins Spiel, wenn in unseren Datensätzen Informationen fehlen. Anstatt wertvolle Datensätze aufgrund einiger Lücken zu verwerfen, nutzen Wissenschaftler statistische Verfahren, um diese Lücken mit plausiblen Werten zu füllen.
Data Imputation mit LLMs
Im ersten Teil Forschungsprojekts haben wir uns die Frage gestellt, ob große Sprachmodelle (LLMs) in der Praxis die zu befragenden Experten ersetzen könnten und wie die Auskünfte von LLMs gegen traditionelle Methode der Datenimputation abschneiden.
Unsere Studie konzentrierte sich auf eine möglichst umfangreiche Bandbreite von Daten aus dem OpenML-CC18 Curated Classification Benchmark, der 72 Klassifizierungsdatensätze aus verschiedenen Domänen umfasst, von Kreditbewertungen bis hin zu Medizin und Marketing. Diese Vielfalt gewährleistete, dass unsere Experimente ein breites Spektrum realer Szenarien abdeckten und somit relevante Einblicke in die Leistungsfähigkeit der LLMs in unterschiedlichen Kontexten boten.
Ein wesentlicher Schritt unserer Methodik war die künstliche Erzeugung fehlender Werte in den Datensätzen, um eine Situation zu simulieren, in der Datenpunkte unvollständig sind und man normalerweise Experten hierzu befragen würde. Diese fehlenden Daten erzeugten wir mittels des Musters „Missing at Random“ (MAR) aus vollständigen Einträgen, um einen Vergleich mit der „Wahrheit“ (Ground Truth) zu ermöglichen.
Wir generierten zunächst für jeden Datensatz aus der OpenML Beschreibung eine geeignete Expertenrolle, mit der anschließend das LLM initialisierten, um zu fehlenden Werten befragt werden zu können.
Für die Imputation griffen wir auf verschiedene LLMs zurück, darunter LLaMA 2 13B Chat, LLaMA 2 70B Chat, Mistral 7B Instruct und Mixtral 8x7B Instruct, die jeweils separat evaluiert wurden. Diese Modelle wurden mit drei empirischen Ansätzen verglichen, die üblicherweise in derartigen Analysen verwendet werden: Mittelwert- und Modusimputation für kontinuierliche bzw. kategoriale Merkmale, k-Nearest Neighbours (k-NN) Imputation und Random Forest Imputation. Die Bewertung der Imputationsqualität basierte dabei auf dem sogenannten „Normalized Root Mean Square Error“ (NRMSE) und dem F1-Score für kontinuierliche bzw. kategoriale Merkmale.
Durch diese methodische Herangehensweise konnten wir nicht nur die Fähigkeit der LLMs, als Experten in der Datenimputation zu fungieren, untersuchen, sondern auch ihre Leistung mit traditionellen Methoden vergleichen. Diese innovative Methodik eröffnet neue Perspektiven im Umgang mit unvollständigen Datensätzen und hebt das Potenzial von LLMs in der Datenwissenschaft hervor.
Vergleich mit traditionellen Methoden: Erkenntnisse aus der LLM-basierten Datenimputation
Entgegen den Erwartungen zeigte unsere Analyse, dass die Imputationsqualität der LLMs nicht generell die der drei empirischen Methoden übertraf. Dennoch deuteten unsere Ergebnisse darauf hin, dass LLM-basierte Imputationen für bestimmte Datensätze nützlich sein können, insbesondere in den Bereichen Ingenieurwesen und Computer Vision. Einige Datensätze, wie 'pc1', 'pc3' und 'satimage' in diesen Domänen, wiesen eine Imputationsqualität mit einem NRMSE von etwa 0,1 auf, und ähnliche Ergebnisse wurden in den Bereichen Biologie und NLP beobachtet.
Interessanterweise variierte die Downstream-Performance der LLM-basierten Imputation je nach Domäne. Während einige Bereiche wie Sozialwissenschaften und Psychologie schlechtere Ergebnisse zeigten, erzielten Medizin, Wirtschaft, Geschäftswelt und Biologie bessere Leistungen. Besonders hervorzuheben ist, dass die LLM-basierte Imputation in der Wirtschaftsdomäne die beste Performance erreichte.
Unsere Ergebnisse lassen vermuten, dass LLMs zumindest in einigen Bereichen in der Lage sind, auf Basis ihrer umfangreichen Trainingsdaten präzise und relevante Einschätzungen zu liefern, die mit den realen Daten übereinstimmen können.
Die differenzierten Ergebnisse verdeutlichen zwar, dass der Einsatz von LLMs für die Datenimputation vielversprechend ist, jedoch eine sorgfältige Abwägung der Domäne und des spezifischen Anwendungsfalls erfordert. Die Erkenntnisse aus unserer Forschung tragen damit dazu bei, das Potenzial und die Grenzen von LLMs in der Datenwissenschaft besser zu verstehen und weisen auf die Notwendigkeit hin, diese Technologie zielgerichtet und mit einem tiefen Verständnis für ihre Stärken und Schwächen einzusetzen.
Prior Elicitation mit LLMs
Im zweiten Teil des Projekts haben wir die Prior Elicitation mit großen Sprachmodellen untersucht. Unser Experiment zielte darauf ab, zu evaluieren, ob LLMs Auskünfte über die Verteilung von Merkmalen geben können und welche Implikationen dies für die Datensammlung und die anschließende Datenanalyse hat. Es ging insbesondere darum, den Einfluss und die Effektivität von durch LLMs ermittelten Priorverteilungen zu verstehen und zu vergleichen, wie gut diese im Vergleich zu traditionellen Ansätzen und Modellen abschneiden.
Dabei verglichen wir die Einschätzungen der LLMs mit denen, aus einem Experiment von Stefan et al. (2022), in dem sechs Psychologieforscher nach typischen kleinen bis mittleren Effektgrößen und Pearson-Korrelationen in ihren jeweiligen Fachgebieten befragt wurden.
Unter Verwendung ähnlicher Fragestellungen haben LLMs aufgefordert, einen einzelnen Experten, eine Gruppe von Experten oder einen Nichtexperten zu simulieren, um anschließend Prioritätsverteilungen abzufragen. Das wurde jeweils mit und ohne Bezug auf das im Vergleichsexperiment verwendete Erhebungsprotokoll durchgeführt.
Hierfür mussten wir zunächst eine spezifische Methodik entwickeln, um die Modelle überhaupt für die Generierung von Expertenwissen in Bereichen nutzen zu können, in denen direkte quantitative Aussagen von den Modellen aufgrund eingebauter Sicherheitsvorkehrungen eingeschränkt sind. Übliche Instruct- oder Chat-Modelle weigern sich durch ihr Alignment in der Regel quantitative Informationen über sensible Themen wie Gesundheitszustände zu liefern.
Um diese Beschränkungen zu umgehen, wendeten wir eine neue Prompting-Strategie an, bei der wir die Modelle baten, Experten-informierte informative Priorverteilungen für die Bayessche Datenanalyse zu liefern. Anstatt nach konkreten Mittelwerten oder Standardabweichungen zu fragen, baten wir dabei die Modelle, ihre Antworten in der Form von Pseudocode Stan-Verteilungen zu formulieren, wie z.B. y ∼ normal(120, 10), um beispielsweise eine Verteilung für den typischen systolischen Blutdruck einer zufällig ausgewählten Person anzugeben.
Dabei demonstrierte ChatGPT 3.5 seine Vertrautheit mit akademischen Elicitation-Frameworks, wie zum Beispiel dem Sheffield-Elicitation-Framework kombiniert mit der Histogramm-Methode, welche wir verwendeten, um eine Priorverteilung für die typische Tagestemperatur und den Niederschlag in 25 Klein- und Großstädten auf der ganzen Welt für den Monat Dezember zu generieren.
ChatGPT nutzte sein aus den Trainingsdaten gesammeltes Wissen, um eine simulierte Diskussion unter Experten zu führen und eine parametrische Wahrscheinlichkeitsverteilung zu konstruieren.
Die Analyse unseres Experiments lag in der Überprüfung, wie „konzentriert“ oder „breit“ diese KI-generierten Verteilungen im Vergleich zu echten Daten sind. Wir wollten herausfinden, wie viele echte Datenpunkte wir bräuchten, um die Vorhersagen der KI zu bestätigen oder zu widerlegen. Dies half uns zu verstehen, wie verlässlich die Vorwissen-Sammlung durch KI im Vergleich zu traditionellen Methoden ist.
Ergebnisse der Prior Elicitation Experimente
Wir haben zu unserer Überraschung festgestellt, dass die Rolle, als Experten in verschiedenen Unterbereichen zu agieren, keinen merklichen Einfluss auf die von den LLMs generierten Priors hatte. In unseren Experimenten blieben ihre Einschätzungen recht ähnlich, egal welche Rolle sie einnahmen: Die meisten der künstlichen Experten neigten dazu, vorsichtige Vorhersagen zu machen, indem sie auf geringe Effekte hinwiesen – außer einem, GPT-4, welches mutiger war und auf mäßig starke Effekte tippte.
Wenn es um die Beziehung zwischen zwei Dingen ging – sagen wir, wie sehr das Wetter unser Einkaufsverhalten beeinflusst –, hatten die digitalen Assistenten eigene, unerwartete Ansichten, die sich von denen echter Menschen unterschieden. Einige zeigten uns eine Art „Badewannen“-Kurve, die in der Mitte tief und an den Rändern hoch war, während GPT-4 uns eine gleichmäßigere, glockenförmige Kurve präsentierte.
Wir haben anschließend untersucht, wie viel Vertrauen diese digitalen Experten in ihre eigenen Vorhersagen hatten. Einige waren recht zurückhaltend und boten vorsichtige Schätzungen an, mit Ausnahme von Mistral 7B Instruct, das extrem zuversichtlich hinsichtliche der Qualität seiner eigenen Schätzungen war.
Interessanterweise hatten die von LLMs bereitgestellten Beta-Priors für Pearson-Korrelationen wenig gemeinsam mit denen von echten Experten. GPT-4 lieferte eine symmetrische unimodale Verteilung, während andere Modelle eine rechtsschiefe „Badewannen“-Verteilung boten.
In unserer meteorologischen Aufgabe haben wir gemessen, wie viele echte Wetterbeobachtungen nötig wären, um genauere Vorhersagen als die künstlichen Experten zu machen. Dies half uns zu verstehen, ob es besser wäre, auf unsere digitalen Assistenten oder auf traditionelle Wettermodelle zu setzen, wenn es darum geht, das Wetter von morgen vorherzusagen.
Zusammengefasst zeigen auch diese Ergebnisse, dass LLMs durchaus in der Lage sind, Priors zu generieren, die in einigen Aspekten mit den Einschätzungen menschlicher Experten konkurrieren können, jedoch in anderen Aspekten deutlich abweichen. Die Fähigkeit der LLMs, als Ersatz für menschliche Experten bei der Ermittlung von Priorverteilungen zu fungieren, variiert je nach der spezifischen Aufgabe und dem gewählten Modell.
Fazit
Die Fähigkeit von LLMs, Wissen aus einer Vielzahl von Quellen zu synthetisieren und in spezifischen Anwendungskontexten einzusetzen, eröffnet neue Horizonte für die Datenanalyse. Insbesondere in Szenarien, in denen Experten schwer zu finden oder deren Zeit kostbar ist, könnten LLMs eine wertvolle Ressource darstellen.
Unsere Forschung deutet darauf hin, dass in Bereichen wie Medizin, Wirtschaft und Biologie LLMs bereits jetzt wertvolle Einsichten liefern können, die auf traditionellen Datenimputationsmethoden basieren. Ebenso kann der Wert des Vorwissens, das durch die großen Sprachmodelle geliefert wird, im Vergleich zu den traditionellen Methoden und unter Berücksichtigung von Kosten und Präzision, in bestimmten Szenarien durchaus hoch sein. Die Verwendung von LLMs für die Prior Elicitation kann also in manchen Fällen eine kosteneffiziente Alternative sein.
Abschließend lässt sich sagen, dass unsere Forschung einen wichtigen Schritt in Richtung der Integration von großen Sprachmodellen in die Datenwissenschaft darstellt. Die Perspektiven sind vielversprechend, und mit weiteren Fortschritten in der Technologie und Methodik stehen wir möglicherweise an der Schwelle zu einer neuen Ära der Datenanalyse, in der LLMs eine zentrale Rolle spielen.
Kai Spriestersbach ist Forscher am DFKI und Co-Autor des „Papers Quantitative knowledge retrieval from large language models“. Die Arbeitsgruppe Data Science und ihre Anwendungen (DSA) um Prof. Sebastian Vollmer, widmet sich im 2021 neu gründeten Forschungsbereich am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) Problemen und Fragestellungen aus den Datenwissenschaften und erkannte früh das Potential, das die jüngsten Durchbrüche großer Sprachmodelle (LLMs) für die Datenanalyse und -interpretation bieten.