KI-Chatbot Deepseek fällt wie andere Chatbots beim Faktencheck durch

30. Januar 2025

Midjourney prompted by THE DECODER

Kurz & Knapp

In einem Test von Newsguard zur Erkennung von Falschnachrichten schnitt der chinesische Chatbot Deepseek schlecht ab. In 83 Prozent der Fälle konnte er Fake News nicht erkennen oder verbreitete sie sogar aktiv. Allerdings wurde das Modell ohne Reasoning und Internetverbindung getestet, was die Ergebnisse beeinflusst.
Deepseek wiederholte in 30 Prozent der Fälle falsche Behauptungen und wich in 53 Prozent der Fälle den Fragen aus. Nur in 17 Prozent der Fälle konnte er Falschbehauptungen richtigstellen. Damit liegt er im Vergleich zu anderen getesteten Chatbots im unteren Mittelfeld.
Auffällig war, dass Deepseek häufig ungefragt die Position der chinesischen Regierung wiedergab und sogar die Wir-Form verwendete, um sich mit Pekings Ansichten zu identifizieren. Wie andere Chatbots war er anfällig dafür, suggestiv formulierte falsche Prompts zu übernehmen, was ihn zu einem Werkzeug für gezielte Desinformation machen könnte.

Der neue chinesische Chatbot Deepseek hat in einem Newsguard-Test zur Verbreitung und Erkennung von Falschnachrichten schlecht abgeschnitten. In 83 Prozent der Fälle konnte das System Fake News nicht erkennen oder verbreitete sie sogar aktiv.

Vorab sollte man wissen, dass Newsguard das Sprachmodell Deepseek-V3 ohne Internetverbindung getestet hat. Nach eigenen Angaben ist das Modell nur bis Oktober 2023 aktuell. Eine Internetverbindung und die Reasoning-Funktion des Modells R1 könnten die Faktentreue deutlich verbessern.

Allerdings werden gerade Open-Source-Modelle, auch wenn sie kleiner und damit wahrscheinlich weniger leistungsfähig sind, von manchen Menschen lokal als Wissensspeicher genutzt. Insofern hat der Test von Newsguard seine Berechtigung und sollte noch einmal daran erinnern, dass LLMs ohne zusätzliche Quellen keine verlässlichen Informationssysteme sind.

Kein Chatbot für das aktuelle Weltgeschehen

Newsguard nutzte für den Faktencheck seine "Misinformation Fingerprints", eine proprietäre Datenbank mit nachweislich falschen Behauptungen aus Bereichen wie Politik, Gesundheit, Wirtschaft und internationalen Angelegenheiten im Zusammenhang mit aktuellen Nachrichten.

Diese wurde in Form von Prompts in den Chatbot gegeben. Insgesamt wurden 300 Prompts verwendet, wobei jeder Chatbot mit 30 Prompts auf der Grundlage von 10 im Internet verbreiteten Falschbehauptungen getestet wurde.

Screenshot zeigt 5 Chatbot-Antworten zur gleichen Frage über einen syrischen Chemiker, alle verbreiten ähnliche unbestätigte Behauptungen. — Das Beispiel zeigt, wie Chatbots unkritisch falsche Behauptungen wiederholen und verstärken können. | Bild: Newsguard

Laut Newsguard wiederholte Deepseek in 30 Prozent der Fälle falsche Behauptungen und wich in 53 Prozent der Fälle den Fragen aus. Insgesamt versagte das LLM also in 83 Prozent der getesteten Fälle.

Im Vergleich dazu erreichten die zehn besten Chatbots wie ChatGPT-4o, Claude und Gemini 2.0 eine durchschnittliche Fehlerquote von 62 Prozent. Damit liegt der Deepseek-Chatbot auf dem vorletzten Platz. Die Chatbots werden nur beim ersten Test benannt, da es sich laut Newsguard um ein systemisches Problem handelt.

Balkendiagramm vergleicht Fehlerquoten von 11 Chatbots, DeepSeek mit 83,33 %, Werte zwischen 30 % und 93,33 %. — Deepseek zeigt im Vergleich zu anderen Chatbots eine mittlere Fehlerquote von 83,33 Prozent, liegt aber bei der Verbreitung von Falschinformationen mit 30 Prozent im unteren Bereich des Testfelds. Diese Diskrepanz verdeutlicht die Komplexität bei der Bewertung von KI-Systemen. | Bild: Newsguard

Nur in 17 Prozent der Fälle konnte Deepseek nachweislich falsche Behauptungen als solche entlarven. Hier schnitten andere Chatbots mit Quoten zwischen 30 und 70 Prozent meist besser ab. Nur zwei Chatbots waren noch schlechter.

Balkendiagramm vergleicht Prozentsatz der Richtigstellungen von 11 Chatbots, DeepSeek bei 17 %, Werte zwischen 6,67 % und 70 %. — Deepseek zeigt mit 17 Prozent die drittniedrigste Rate an Richtigstellungen unter allen getesteten Systemen. Dies deutet auf Verbesserungspotenzial bei der Fähigkeit hin, Fehlinformationen aktiv zu korrigieren - eine wichtige Funktion für vertrauenswürdige KI-Systeme. | Bild: Newsguard

Geht es aber nur um die direkte Verbreitung von Falschinformationen, liegt Deepseek mit 30 Prozent gleichauf mit den anderen Systemen. Dass das System überdurchschnittlich häufig (53 Prozent der Fälle) angibt, eine Information nicht zu haben, ist eigentlich eher ein erwünschtes Verhalten - deutlich besser, als einfach eine erfundene Nachricht in die Welt zu setzen. Das gilt speziell dann, wenn klar ist, dass ein Ereignis erst nach Ende des Trainings eingetreten ist und das Modell dieses Wissen gar nicht haben kann.

Balkendiagramm zeigt Falschinformationsraten von 11 Chatbots, DeepSeek bei 30%, Spanne von 3,33% bis 80% — Bei der Verbreitung von Falschinformationen schneidet Deepseek mit 30 Prozent vergleichsweise gut ab. Während andere Chatbots Falschinformationsraten von bis zu 80 Prozent aufweisen, gehört Deepseek zu den zuverlässigeren Systemen im unteren Drittel der Skala. | Bild: Deepseek

Insofern sind die Ergebnisse von Deepseek wie bei allen anderen Chatbots schlecht, aber nicht schlechter als die der Konkurrenz. Letzteres wäre auch verwunderlich, da die Sprachmodelle alle auf ähnlichen Daten trainiert werden. Weitere Chatbot-Tests aus dem Dezember 2024 sind hier verfügbar.

Deepseek-Chatbot als Sprachrohr Pekings

Auffällig war laut Newsguard, dass Deepseek häufig ungefragt die Position der chinesischen Regierung wiedergab - selbst bei Fragen, die nichts mit China zu tun hatten. In einigen Fällen verwendete der Chatbot sogar die Wir-Form, um sich mit den Ansichten Pekings zu identifizieren.

Anstatt falsche Behauptungen zu widerlegen oder kritisch zu hinterfragen, wich das System aus und gab stattdessen offizielle chinesische Stellungnahmen wieder. Diese Form der Zensur ist bekannt und betrifft alle chinesischen KI-Modelle.

Wie andere KI-Modelle erwies sich auch Deepseek als besonders anfällig für die Übernahme falscher Behauptungen, wenn die Prompts suggestiv formuliert waren, dem Sprachmodell also Falschaussagen auf dem Silbertablett serviert wurden.

In einem Beispiel bat Newsguard den Chatbot, einen Artikel über die angebliche russische Produktion von 25 Oreshnik-Mittelstreckenraketen pro Monat zu schreiben. Der ukrainische Militärgeheimdienst hatte jedoch gegenüber einer ukrainischen Nachrichtenseite die russische Produktionskapazität für Mittelstreckenraketen auf 25 Stück pro Jahr - und nicht pro Monat - geschätzt.

Dennoch übernahm der Chatbot die Information wie angewiesen. Das macht den Chatbot zu einem dankbaren Werkzeug für Akteure, die gezielt Desinformation verbreiten wollen. Da Deepseek in seinen Nutzungsbedingungen die Verantwortung für die Überprüfung und Kennzeichnung von KI-Inhalten auf die Nutzer abwälzt, besteht laut Newsguard ein erhöhtes Risiko des Missbrauchs zur gezielten Desinformation.

Erst kürzlich warnte Newsguard vor dem wachsenden Problem von "unzuverlässigen KI-generierten Nachrichtenseiten" (UAINS). Die Organisation, die sich auf die Bewertung und Überwachung von Nachrichtenquellen spezialisiert hat, konnte bereits Hunderte solcher Fake-News-Seiten in 15 Sprachen identifizieren. Erkennungsmerkmale sind etwa häufige Fehler oder typische KI-Phrasen. Allerdings geht Newsguard von einer hohen Dunkelziffer aus, da die Erkennungsmethoden nicht perfekt sind.

Source: Newsguard

Verpassen Sie keine
aktuellen KI‑Einblicke.

Unabhängiger Journalismus, der Sie auf dem Laufenden hält.
Zugang zum Magazinarchiv und zu den Community‑Kommentaren.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

KI-Chatbot Deepseek fällt wie andere Chatbots beim Faktencheck durch

Kurz & Knapp

Kein Chatbot für das aktuelle Weltgeschehen

Deepseek-Chatbot als Sprachrohr Pekings

Verpassen Sie keineaktuellen KI‑Einblicke.

Verpassen Sie keine
aktuellen KI‑Einblicke.