Sprachmodelle scheitern bei komplexen Theory-of-Mind-Tests von Meta

Midjourney prompted by THE DECODER

Metas ExploreToM ist ein Framework für Theory-of-Mind-Daten - und zeigt, dass selbst aktuelle Spitzenmodelle wie Llama-3.1-70B und GPT-4o bei anspruchsvollen ToM-Szenarien versagen.

Laut einer Studie von Forschern von Metas FAIR sowie der Universitäten Washington und Carnegie Mellon ist es schwierig, das Theory-of-Mind-Verständnis (ToM) von großen Sprachmodellen (LLM) robust zu bewerten. Theory of Mind bezieht sich auf die Fähigkeit, die Absichten, Ziele, Gedanken und Überzeugungen anderer zu verstehen und ist eine Grundlage der sozialen Intelligenz.

Vorhandene Datensätze sind laut dem Team jedoch zu einfach und könnten zu einer Überschätzung der Fähigkeiten der Modelle führen. In früheren Tests haben Modelle wie GPT-4 Bestwerte geliefert und immer wieder zu Behauptungen geführt, dass Sprachmodelle eine ToM entwickelt hätten. Wahrscheinlicher ist jedoch, dass sie von der narrativen Praxis der ToM gelernt haben und mit dieser Fähigkeit simple ToM-Tests bestehen.

Um dieses Problem zu lösen, stellen die Forscher ExploreToM vor, das erste Framework, das die Generierung vielfältiger und herausfordernder ToM-Daten in großem Maßstab ermöglicht. Der Ansatz verwendet einen Suchalgorithmus mit einer speziellen domänenspezifischen Sprache, um komplexe Handlungsabläufe und neuartige, vielfältige, aber plausible Szenarien zu erzeugen, mit denen die Grenzen von LLMs getestet werden können.

Flussdiagramm: Story-Generierungsprozess in 3 Phasen - Kontextdefinition, Strukturanalyse und inkrementelle Story-Entwicklung mit Beispieltext. — Das Diagramm veranschaulicht ExploreToms dreistufigen Story-Generierungsprozess: von der initialen Kontextdefinition über die strukturelle Analyse mittels Mental-State-Tracker bis zur inkrementellen Ausarbeitung natürlich klingender Geschichten. | Bild: Sclar et al.

Die Forscher zeigen, dass selbst Spitzenmodelle wie Llama-3.1-70B, Mixtral 7x8B und GPT-4o an den mit ExploreToM generierten Daten immer wieder scheitern. Ihre Genauigkeit sank in den Tests auf bis zu 0 Prozent für Mixtral und Llama und bis zu 9 Prozent für GPT-4o.

ExploreToM-Daten eignen sich auch zum Finetuning von Sprachmodellen

Die Studie zeigt, dass die Methode auch für die Erstellung komplexer und vielfältiger ToM-Trainingsdaten verwendet werden kann. Eine Feinabstimmung von Llama-3.1 8B Instruct mit ExploreToM-Daten führte zu einer Verbesserung der Genauigkeit um 27 Punkte im klassischen ToMi-Benchmark.

Die Forscher zeigen auch, dass LLMs Schwierigkeiten mit dem einfachen Zustandsverfolgen haben - eine grundlegende Fähigkeit, die dem ToM-Reasoning zugrunde liegt. Es bezieht sich auf die Fähigkeit, den Zustand der Welt und die Überzeugungen der Beteiligten über diesen Zustand im Verlauf einer Geschichte oder Interaktion zu verfolgen.

Die von ExploreToM generierten Fragen werden daher etwa zu gleichen Teilen in interessante Fragen, die ToM einschließlich State-Tracking erfordern, und uninteressante Fragen, die nur State-Tracking erfordern, unterteilt. Die Forscher zeigen, dass die untersuchten Sprachmodelle bei reinen State-Tracking-Fragen noch schlechter abschneiden als bei ToM-Fragen. Dies deutet darauf hin, dass die Verbesserung des State-Tracking ein entscheidender Schritt sein könnte, um Sprachmodelle mit besseren ToM-Fähigkeiten auszustatten.

Andererseits zeigten die Experimente, dass für eine gezielte Verbesserung der ToM-Fähigkeiten durch Feintuning Daten verwendet werden sollten, die explizit ToM erfordern, und nicht nur State-Tracking. Alle Daten gibt es auf Hugging Face.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI-Forschung

Sprachmodelle scheitern bei komplexen Theory-of-Mind-Tests von Meta

ExploreToM-Daten eignen sich auch zum Finetuning von Sprachmodellen

OpenAIs o3 ist weniger AGI als ursprünglich angekündigt

xAI-Mitgründer Igor Babuschkin verlässt Musk-Projekt und startet Fonds für KI-Sicherheit

Reuters: USA bauen verdeckte Ortungstechnik in KI-Chip-Lieferungen ein

Perplexity bietet 34,5 Milliarden für Chrome – erneut PR-Stunt wie bei TikTok

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Sprachmodelle scheitern bei komplexen Theory-of-Mind-Tests von Meta

ExploreToM-Daten eignen sich auch zum Finetuning von Sprachmodellen

Artikel teilen

Bankverbindung