Inhalt
summary Zusammenfassung

Schon kleine Änderungen am Prompt können große Auswirkungen auf die Faktenqualität haben: Ein neuer Benchmark zeigt, wie anfällig Sprachmodelle gegenüber Kürzeanweisungen und übertriebenem Nutzer-Tonfall sind.

Anzeige

Im Rahmen des mehrsprachigen Phare-Benchmarks untersucht Giskard systematisch die Halluzinationsneigung führender Sprachmodelle unter realistischen Bedingungen. Der erste veröffentlichte Teil widmet sich der Halluzination – einem Problem, das laut der vorangegangenen RealHarm-Studie für mehr als ein Drittel der dokumentierten Vorfälle mit LLMs verantwortlich ist.

Die Ergebnisse zeigen: Viele Modelle liefern deutlich häufiger falsche Informationen, wenn sie zu kurzen Antworten aufgefordert werden – oder wenn Nutzer Behauptungen besonders selbstsicher formulieren.

Knappe Antworten führen häufiger zu Fehlern

Prompts, die auf Kürze drängen – etwa "Beantworte die Frage kurz" – senken die faktische Verlässlichkeit vieler Modelle messbar. In den extremsten Fällen sank die Halluzinationsresistenz um bis zu 20 Prozent.

Anzeige
Anzeige

Der Grund: Eine gute Widerlegung erfordert oft längere Ausführungen, für die in kurzen Antworten kein Raum bleibt. Viele Anwendungen priorisieren knappe Antworten, um Tokenkosten und Latenz zu reduzieren – ein Kompromiss, der laut Phare die Faktenqualität beeinträchtigen kann.

Besonders stark betroffen sind Grok 2, Deepseek V3 und GPT-4o mini. Bei ihnen verschlechtert sich die Genauigkeit deutlich, wenn sie zu kurzen Antworten aufgefordert werden. Robuster bleiben Claude 3.7 Sonnet, Claude 3.5 Sonnet und Gemini 1.5 Pro – ihre Leistung bleibt auch unter Kürzevorgaben weitgehend stabil.

Sycophancy: Modelle stimmen selbst absurden Aussagen zu

Ein zweiter Faktor ist der Tonfall der Nutzerfrage. Formulierungen wie "Ich bin 100 % sicher, dass …" oder "Mein Lehrer sagte mir, dass …" senken die Bereitschaft vieler Modelle, falsche Aussagen zu korrigieren. Dieser sogenannte Sycophancy-Effekt kann die Leistung bei Widersprüchen ("Debunking") um bis zu 15 Prozent senken.

"Modelle, die in erster Linie auf die Zufriedenheit der Nutzer optimiert sind, liefern trotz fragwürdiger oder fehlender Faktengrundlagen stets Informationen, die plausibel und glaubwürdig klingen", heißt es in der Studie.

Besonders anfällig sind kleinere Modelle wie GPT-4o-mini, Qwen 2.5 Max und Gemma 3 27B. Sie lassen sich stark vom Tonfall der Nutzer beeinflussen. Modelle von Anthropic und Meta – etwa Claude 3.5, Claude 3.7 und Llama 4 Maverick – zeigen dagegen kaum Reaktion auf übertriebene Nutzergewissheit.

Empfehlung
Heatmaps: Benchmark von Sprachmodellen zur Genauigkeit beim Debunking (Nutzer-Ton) & Resistenz gegen Halluzinationen (System-Prompts).
Aktuelle Benchmarks von Sprachmodellen zeigen deutliche Unterschiede in ihrer Fähigkeit, Falschaussagen zu entlarven und Halluzinationen zu widerstehen. Die Leistung variiert je nach Modell und wird teils durch den Tonfall des Nutzers oder die Art der Systemanweisung beeinflusst. | Bild: Le Jeune et al.

Modelle versagen unter realistischen Bedingungen häufiger

Die bisherigen Ergebnisse legen offen, dass viele Modelle unter realistischen Nutzungsbedingungen – etwa manipulativen Nutzerformulierungen oder technischen Einschränkungen – deutlich schlechter abschneiden als unter idealisierten Testvorgaben. Besonders problematisch wird dies, wenn Anwendungen auf Kürze und Nutzerfreundlichkeit optimiert sind, ohne die Auswirkungen auf die faktische Zuverlässigkeit zu berücksichtigen.

Rangliste (April 2025): Sprachmodelle nach Halluzinationsresistenz, Claude-Modelle und Gemini 1.5 Pro führend.
Das Ranking der Sprachmodelle nach Halluzinationsresistenz (Stand April 2025) unterstreicht die führende Robustheit von Claude-Modellen und Gemini-Modellen. | Bild: Phare Benchmark (Screenshot)

Phare ist ein gemeinsames Projekt von Giskard, Google Deepmind, der Europäischen Union und Bpifrance. Ziel ist ein umfassender Benchmark zur Sicherheitsbewertung großer Sprachmodelle. Weitere Module zu Verzerrung, Schädlichkeit und Missbrauchsanfälligkeit sollen in den kommenden Wochen veröffentlicht werden.

Die vollständigen Ergebnisse stehen unter phare.giskard.ai zur Verfügung. Organisationen können eigene Modelle testen oder sich an der Weiterentwicklung beteiligen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Der Phare-Benchmark zeigt, dass Sprachmodelle häufig falsche Informationen erzeugen, wenn Nutzer kurze Antworten verlangen oder einen entschlossenen Tonfall wählen.
  • Die Studie belegt, dass besonders kleinere Modelle bei knappen Antworten und manipulativen Nutzerformulierungen deutlich an Faktenqualität verlieren. Modelle wie Claude 3.5 und Gemini 1.5 Pro sind auch unter solchen Bedingungen eher robust.
  • Der Benchmark ist ein Gemeinschaftsprojekt von Giskard, Google Deepmind, der EU und Bpifrance und soll die Sicherheitsbewertung großer Sprachmodelle systematisch verbessern; weitere Module zu Verzerrung, Schädlichkeit und Missbrauchsanfälligkeit sind in Planung.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!