Forscher des Massachusetts Institute of Technology (MIT) und der Harvard University stellen einen Ansatz vor, um mithilfe von großen Sprachmodellen sozialwissenschaftliche Hypothesen automatisiert zu generieren und zu testen.
Der Schlüssel zu diesem Ansatz sind strukturelle Kausalmodelle (Structural Causal Models, SCMs), mathematische Modelle zur Formulierung von Hypothesen, die eine Blaupause für die Konstruktion qualitativ hochwertiger LLM-basierter Agenten liefern, ein experimentelles Design vorschlagen und einen Plan für die Datenanalyse bereitstellen.
Das von den Forschern entwickelte System kann so automatisch Hypothesen generieren, Experimente entwerfen, diese Experimente mit LLM-gesteuerten Agenten, die Menschen simulieren, durchführen und die Ergebnisse analysieren. Durch den Einsatz von SCM mit LLMs könnte so der gesamte sozialwissenschaftliche Prozess ohne menschliches Eingreifen simuliert werden. Das Sprachmodell ist sowohl Forscher als auch Forschungsgegenstand, wie es die Forscher im Titel ihrer Arbeit beschreiben.
Die Forscher demonstrieren den Ansatz anhand mehrerer Szenarien: einer Verhandlung, einer Kautionsanhörung, einem Vorstellungsgespräch und einer Auktion. In jedem Fall schlägt das System kausale Zusammenhänge vor und testet diese, wobei es für manche Hypothesen Evidenz findet und für andere nicht.
Beispielsweise erhöhte sich in der Verhandlungssituation die Wahrscheinlichkeit einer Einigung, wenn die emotionale Bindung des Verkäufers an den Gegenstand abnahm. Sowohl die Reservationspreise des Käufers als auch des Verkäufers spielten eine Rolle. Bei der Kautionsanhörung wurde einem reuigen Angeklagten eine niedrigere Kaution gewährt, nicht jedoch, wenn seine Vorstrafen umfangreich waren.
Die Forscher stellen fest, dass die Erkenntnisse aus diesen simulierten sozialen Interaktionen nicht durch direkte Abfrage des LLMs verfügbar sind. Wenn das LLM jedoch mit dem vorgeschlagenen SCM für jedes Szenario ausgestattet wurde, konnte es die Richtung der geschätzten Effekte zuverlässig vorhersagen, jedoch nicht deren Stärke.
Im Auktionsexperiment stimmten die Simulationsergebnisse eng mit den Vorhersagen der Auktionstheorie überein, wonach der Endpreis nahe dem zweithöchsten Gebot liegt. Die Vorhersagen des LLM für die Auktionspreise waren ungenau, verbesserten sich jedoch dramatisch, wenn das Modell mit dem angepassten SCM konditioniert wurde.
Kurz gesagt: Das LLM weiß mehr, als es unmittelbar mitteilen kann.
Das Forschungsteam ist der Ansicht, dass dieser SCM-basierte LLM-Ansatz eine vielversprechende neue Methode zur Untersuchung von simuliertem Verhalten in großem Maßstab darstellt, die bestehenden agentenbasierten Methoden deutlich überlegen ist.
Die Methode ermögliche kontrollierte Experimente in großem Maßstab, sei interaktiv und anpassbar und gewährleiste eine hohe Wiederholbarkeit der Ergebnisse. Für die Sozialwissenschaften könne sie ein ähnlicher Durchbruch sein wie Alphafold für die Proteinforschung oder GNoME für die Materialforschung.
"Das in diesem Beitrag vorgestellte System kann diese kontrollierten experimentellen Simulationen massenhaft mit vordefinierten Plänen für die Datenerfassung und -analyse erstellen. Dies steht im Gegensatz zu den meisten akademischen sozialwissenschaftlichen Forschungen, wie sie derzeit praktiziert werden", schreiben die Forscher.
Im Gegensatz zu offenen sozialen Simulationen, bei denen die Auswahl und Analyse der Ergebnisse schwierig sein kann, beschreibt der SCM-Rahmen genau, was als nachgelagertes Ergebnis gemessen werden soll. Dadurch werde vermieden, dass die Kausalstruktur im Nachhinein aus Beobachtungsdaten abgeleitet werden muss, was problematisch sein kann.
Es bleibt jedoch die Herausforderung, die in der Simulation generierten Ergebnisse auf das tatsächliche menschliche Verhalten zu übertragen.
Bereiche für zukünftige Forschung seien etwa, wie man den LLM-Agenten am besten Attribute zuweist, wie man die sozialen Interaktionen zwischen den Agenten am besten gestaltet und wie der Ansatz für automatisierte Forschungsprogramme genutzt werden könnte.
Im größeren Zusammenhang ist die Studie ein weiteres mögliches Beispiel dafür, wie generative KI andere Wissenschaften beschleunigen kann.