Inhalt
summary Zusammenfassung
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
KI bei der Bundeswehr und der BWI | DEEP MINDS #16

Große Sprachmodelle zeigen kognitive Verzerrungen und stimmen nicht mit menschlichen Präferenzen überein, wenn sie Texte bewerten, so eine Studie.

Das Verständnis von Verzerrungen in großen linguistischen Modellen ist wichtig, da diese zunehmend in realen Anwendungen eingesetzt werden, von Inhaltsempfehlungen bis hin zur Bewertung von Bewerbungen. Sind diese Modelle verzerrt, können sie Entscheidungen oder Vorhersagen treffen, die ungerecht oder ungenau sind.

Angenommen, ein KI-System wird zur Bewertung von Bewerbungen eingesetzt. Das System verwendet ein großes Sprachmodell, um die Qualität des Bewerbungsschreibens zu bewerten. Wenn dieses Modell jedoch eine inhärente Voreingenommenheit aufweist, wie die Bevorzugung längerer Texte oder bestimmter Schlüsselwörter, könnte es einige Bewerber ungerechtfertigterweise gegenüber anderen bevorzugen, auch wenn diese nicht unbedingt besser qualifiziert sind. Deshalb ist es so wichtig, die Verzerrungen in diesen Modellen zu verstehen.

Kognitive Verzerrungen in LLMs

Forscher der University of Minnesota und Grammarly haben jetzt eine Studie durchgeführt, um kognitive Verzerrungen in großen Sprachmodellen (LLMs) zu messen, wenn diese zur automatischen Bewertung der Textqualität verwendet werden.

Anzeige
Anzeige

Das Forschungsteam hat 15 LLMs aus vier verschiedenen Größenbereichen zusammengestellt und ihre Antworten analysiert. Die Modelle wurden gebeten, die Antworten anderer LLMs zu bewerten, zum Beispiel "System Star ist besser als System Square".

Die Forscher führten dann den "COgnitive Bias Benchmark for LLMs as EvaluatoRs" (COBBLER) ein, einen Benchmark zur Messung von sechs verschiedenen kognitiven Verzerrungen in LLM-Bewertungsergebnissen.

Der Benchmark verwendet 50 Frage-Antwort-Beispiele aus den BIGBENCH und ELI5 Datensätzen, generiert Antworten von jedem LLM und fordert die Modelle auf, ihre eigenen Antworten und die Antworten anderer Modelle zu bewerten.

Zu den gemessenen Verzerrungen gehören die EGOCENTRIC-Verzerrung, bei der ein Modell seine Ergebnisse bei der Bewertung bevorzugt, und die ORDER-Verzerrung, bei der ein Modell eine Option aufgrund ihrer Reihenfolge bevorzugt.

Die in der Studie untersuchten Verzerrungen. | Bild: Koo et al.

Die Studie zeigt, dass LLMs bei der Bewertung der Textqualität voreingenommen sind und starke Anzeichen von Verzerrung bei jeder ihrer Bewertungen zeigen.

Empfehlung

Die Forscher untersuchten auch die Korrelation zwischen menschlichen und maschinellen Präferenzen und stellten fest, dass die maschinellen Präferenzen nicht eng mit den menschlichen übereinstimmen (Rank-Biased-Overlap: 49,6 %).

Die Abbildung zeigt die Ausprägung der Verzerrungen in den verschiedenen Modellen sowie die Übereinstimmung mit menschlichen Einschätzungen. | Bild: Koo et al.

LLMs als Textbeurteiler ungeeignet

Nach Ansicht des Forschungsteams deuten die Ergebnisse der Studie darauf hin, dass LLMs nicht für die automatische Annotation auf der Grundlage menschlicher Präferenzen verwendet werden sollten.

Die meisten der getesteten Modelle zeigten starke Anzeichen von kognitiven Verzerrungen, die ihre Glaubwürdigkeit als Evaluatoren beeinträchtigen könnten.

Selbst Modelle, die auf Instruktionen abgestimmt oder mit menschlichem Feedback trainiert worden waren, zeigten verschiedene kognitive Verzerrungen, wenn sie als automatische Evaluatoren eingesetzt wurden.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Die einzelnen Verzerrungen und ihre Zusammensetzung zur Gesamtverzerrung des Modells. Metas Llama 2 weist die geringste Verzerrung auf, GPT-4 liegt genau im Durchschnitt. | Bild: Koo et al.

Die geringe Korrelation zwischen menschlichen und maschinellen Bewertungen deutet darauf hin, dass maschinelle und menschliche Präferenzen im Allgemeinen wenig übereinstimmen. Das wirft die Frage auf, ob LLMs überhaupt in der Lage sind, faire Bewertungen vorzunehmen.

Mit Bewertungsmöglichkeiten, die verschiedene kognitive Verzerrungen beinhalten, sowie einem geringen Prozentsatz an Übereinstimmung mit menschlichen Präferenzen, deuten unsere Ergebnisse legen unsere Ergebnisse nahe, dass LLMs immer noch nicht als faire und zuverlässige automatische Bewerter geeignet sind.

Aus dem Paper

Die vollständigen Details der Studie sind im arXiv-Paper "Benchmarking Cognitive Biases in Large Language Models as Evaluators" verfügbar.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie zeigt, dass große Sprachmodelle (LLMs) kognitive Verzerrungen aufweisen und nicht mit menschlichen Präferenzen übereinstimmen, wenn sie Texte bewerten. Dies wirft Bedenken hinsichtlich der Fairness und Genauigkeit von KI-Entscheidungen auf.
  • Forscher der University of Minnesota und Grammarly haben den "COgnitive Bias Benchmark for LLMs as EvaluatoRs" (COBBLER) entwickelt, um sechs verschiedene kognitive Verzerrungen in LLM-Bewertungsergebnissen zu messen.
  • Die Ergebnisse der Studie legen nahe, dass LLMs nicht für die automatische Annotation basierend auf menschlichen Präferenzen verwendet werden sollten. Alle 15 getesteten Modelle zeigen starke Anzeichen kognitiver Verzerrungen, die nicht eng mit menschlichen Präferenzen korrelieren.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!