LLM-Vergleich zwischen GPT-4, Claude 2 und Llama 2 - wer halluziniert, wer relativiert?

Midjourney prompted by THE DECODER

Der auf LLM-Benchmarking spezialisierte Dienst "Arthur" hat die Leistung großer Sprachmodelle wie GPT-4 für zwei Schlüsselthemen verglichen.

Arthur analysierte die Halluzinationen und Antwortrelativierungen der Sprachmodelle GPT-3.5 (~175 Milliarden Parameter) und GPT-4 (~1.76 Billionen Parameter) von OpenAI, Claude 2 von Anthropic (Parameter unbekannt), Llama 2 (70 Milliarden Parameter) von Meta und des Command Modells von Cohere (~50 Milliarden Parameter).

Um die Halluzinationen zu vergleichen, stellte Arthur Fragen zur Kombinatorik und Wahrscheinlichkeitsrechnung, zu US-Präsidenten und zu politischen Führern in Marokko. Die Fragen wurden mehrmals gestellt, da die Sprachmodelle manchmal die richtige, manchmal eine leicht falsche oder eine völlig falsche Antwort auf dieselbe Frage gaben.

Claude 2 hatte bei den Fragen zu den US-Präsidenten die wenigsten Halluzinationen bei mehr richtigen Antworten, schnitt also besser ab als GPT-4 und deutlich besser als GPT-3.5 Turbo, das ständig versagte. Letzteres ist insofern kritisch, als das kostenlose ChatGPT auf GPT-3.5 basiert und wahrscheinlich am häufigsten von Studierenden und in Schulen verwendet wird.

Bei den marokkanischen Politikern verweigerten Llama 2 und Claude 2 besonders häufig die Antwort, wahrscheinlich als Gegenmaßnahme gegen zu starke Halluzinationen. Hier war GPT-4 das einzige Modell mit mehr richtigen Antworten als Halluzinationen.

GPT-4 ist vorsichtiger als andere Modelle

In einem zweiten Test untersuchte die Benchmarking-Plattform, inwieweit die Modelle ihre Antworten absichern, also eine Warnung vor die Antwort setzen wie "Als großes Sprachmodell kann ich nicht ...". Dieses "Hedging" von Antworten kann die Benutzerinnen und Benutzer frustrieren. Außerdem findet man dieses "Hedging" manchmal in KI-generierten Texten von unvorsichtigen "Autoren".

Für den Hedging-Test verwendete die Plattform einen Datensatz mit generischen Fragen, die Benutzerinnen und Benutzer an LLMs stellen könnten. Die beiden GPT-4-Modelle beantworteten diese Fragen in 3,3 bzw. 2,9 Prozent der Fälle. GPT-3.5 turbo und Claude-2 taten dies nur in etwa zwei Prozent der Fälle, während Cohere diesen Mechanismus nicht verwendet.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

LLM-Vergleich zwischen GPT-4, Claude 2 und Llama 2 - wer halluziniert, wer relativiert?

GPT-4 ist vorsichtiger als andere Modelle

OpenAIs Personalchef kritisiert Metas Abwerbungen als "verzweifelt"

EU-Verlage beschweren sich: Google nutzt Inhalte für KI-Zusammenfassungen ohne Erlaubnis

Sutskever wird CEO von Safe Superintelligence Inc. - und will eigenständig bleiben

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

LLM-Vergleich zwischen GPT-4, Claude 2 und Llama 2 - wer halluziniert, wer relativiert?

GPT-4 ist vorsichtiger als andere Modelle

OpenAIs Personalchef kritisiert Metas Abwerbungen als "verzweifelt"

EU-Verlage beschweren sich: Google nutzt Inhalte für KI-Zusammenfassungen ohne Erlaubnis

Sutskever wird CEO von Safe Superintelligence Inc. - und will eigenständig bleiben