Inhalt
summary Zusammenfassung

Die BBC hat in einer umfangreichen Studie nachgewiesen, dass KI-Assistenten wie ChatGPT, Microsoft Copilot, Google Gemini und Perplexity systematisch Nachrichteninhalte verfälschen.

Anzeige

45 BBC-Journalisten analysierten im Dezember 2024 die Antworten der KI-Systeme auf 100 aktuelle Nachrichtenfragen. Die Analyse erfolgte anhand von sieben Kriterien: Genauigkeit, Quellenangabe, Unparteilichkeit, Unterscheidung zwischen Meinung und Fakten, Kommentierung, Kontext und die korrekte Darstellung von BBC-Inhalten. Die Antworten wurden auf einer Skala von "keine Probleme" bis "erhebliche Probleme" bewertet.

Mehrere Diagramme zur BBC-Analyse von KI-Assistenten: Qualitätsprobleme nach Kategorien und Vergleich von ChatGPT, Copilot, Gemini und Perplexity.
Gemini weist mit mehr als 60 Prozent die höchste Rate an problematischen Antworten auf. Genauigkeit und Quellenunterstützung haben bei allen getesteten Systemen Verbesserungspotenzial. | Bild: via BBC

Chatbots machen teilweise gravierende inhaltliche Fehler bei News-Zusammenfassungen

Laut BBC enthielten 51 Prozent aller KI-Antworten signifikante Fehler. Zu den häufigsten Problemen gehörten falsche Fakten, unzureichende Quellenangaben und fehlender Kontext. 19 Prozent der Antworten, in denen BBC-Inhalte zitiert wurden, enthielten sachliche Fehler. In 13 Prozent der Fälle waren die Zitate entweder verfälscht oder in den angegebenen Quellen gar nicht vorhanden.

Die Fehler reichten von falschen Gesundheitsempfehlungen bis zu erfundenen Zitaten. So behauptete Google Gemini fälschlicherweise, der britische staatliche Gesundheitsdienst NHS (National Health Service) rate vom Vaping ab, obwohl die Gesundheitsbehörde die E-Zigarette als Methode zur Rauchentwöhnung empfiehlt - also eine völlige Umkehrung der eigentlichen Aussage.

Anzeige
Anzeige

Perplexity generierte falsche Informationen über den Tod des Wissenschaftsjournalisten Michael Mosley, einschließlich des Todesmonats, und verfälschte Aussagen seiner Familie. ChatGPT bezeichnete den bereits im Juli 2024 getöteten Hamas-Führer Ismail Haniyeh noch im Dezember als aktives Führungsmitglied.

Die KI-Assistenten zeigten auch grundlegende Schwächen im Umgang mit Quellen. Sie verwendeten veraltete Artikel, vermischten Meinungen mit Fakten, attribuierten Aussagen falsch, fügten unbegründete Meinungen in Aussagen ein und ließen häufig wichtigen Kontext weg. Microsoft Copilot zitierte etwa eine Live-Berichterstattung von 2022 als aktuelle Quelle zur schottischen Unabhängigkeitsdebatte.

Vier Balkendiagramme vergleichen KI-Assistenten in den Kategorien Unparteilichkeit, Fakten-Meinungs-Trennung, Editorialisierung und Kontextbereitstellung.
Die detaillierte Analyse offenbart spezifische Schwächen der KI-Systeme in den Bereichen Unparteilichkeit, Fakten-Meinungs-Unterscheidung und Kontextbereitstellung. Perplexity zeigt dabei die ausgewogenste Performance über alle Kategorien hinweg. | Bild: via BBC

Die BBC fordert angesichts der Ergebnisse eine stärkere Regulierung von KI-Systemen und mehr Kontrolle darüber, wie deren Inhalte genutzt werden. Besonders problematisch sei es, wenn die KI-Assistenten bekannte Medienmarken wie die BBC als Quelle angeben und die Nutzer so dazu verleitet werden, den Antworten zu vertrauen - auch wenn diese falsch sind. Das Medienunternehmen plant, die Studie bald zu wiederholen.

Wahres Ausmaß unbekannt

Die Bewertungskriterien der BBC-Journalisten waren streng. So wurden auch kleinere Ungenauigkeiten als "signifikante Probleme" eingestuft, wenn sie potenziell irreführend sein könnten. Darüber hinaus sollten in Folgestudien unabhängige Prüfer und Vergleichsgruppen eingesetzt werden. Ein Vergleich der tatsächlichen Fehlerrate zwischen Mensch und Maschine wäre ebenfalls relevant.

Die BBC betont selbst, dass ihre Untersuchung nur an der Oberfläche des Problems kratzen kann. "Das Ausmaß der Fehler und die Verzerrung vertrauenswürdiger Inhalte ist unbekannt", heißt es in dem Bericht. KI-Assistenten könnten Antworten auf ein breites Spektrum von Fragen geben, und Nutzer könnten unterschiedliche Antworten auf die gleiche oder eine ähnliche Frage erhalten. Selbst KI-Unternehmen würden wahrscheinlich nicht das wahre Ausmaß von KI-Fehlern erfassen.

Empfehlung

Dennoch zeigt die Studie systematische Schwächen von KI-Systemen bei der Verarbeitung von Nachrichteninhalten - und diese Erkenntnisse sind nicht neu. Auch frühere Untersuchungen, etwa im politischen Bereich, haben diese Schwächen aufgezeigt. In einem besonders krassen Fall machte Microsofts Chatbot Bing einen Gerichtsreporter zum Täter, weil er nicht zwischen Berichterstatter und Täter unterscheiden konnte.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine BBC-Studie zeigt, dass KI-Assistenten wie ChatGPT, Microsoft Copilot, Google Gemini und Perplexity systematisch Nachrichteninhalte verfälschen.
  • 45 BBC-Journalisten analysierten die Antworten der Systeme auf 100 aktuelle Nachrichtenfragen anhand von sieben Kriterien wie Genauigkeit und Quellenangabe.
  • 51 Prozent aller KI-Antworten enthielten signifikante Fehler, darunter falsche Fakten, unzureichende Quellenangaben und fehlender Kontext. Die Fehler reichten von falschen Gesundheitsempfehlungen bis zu erfundenen Zitaten.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!