KI‑generierte Texte erkennen: Wikipedia legt Leitfaden für Editoren vor

10. August 2025

GPT-4o prompted by THE DECODER

Kurz & Knapp

Das WikiProject AI Cleanup hat einen detaillierten Leitfaden veröffentlicht, der Wikipedia-Editor:innen hilft, typische Merkmale von KI-generierten Texten wie werbesprachliche Formulierungen, fehlende Neutralität und auffällige Formatierungen zu erkennen.
Neben sprachlichen und technischen Indikatoren wie falschen Quellen, Markdown-Formatierung und automatisch eingefügten Platzhaltercodes warnt der Guide auch vor der alleinigen Nutzung von KI-Detektoren und empfiehlt, mehrere Hinweise zu prüfen.
Die Projektgruppe dokumentiert verdächtige Wikipedia-Einträge und betont, dass KI-Texte zwar herausfordernd zu identifizieren sind, aber menschliches Urteilsvermögen bei der Bewertung zentral bleibt.

Das WikiProject AI Cleanup hat einen umfassenden Leitfaden zur Erkennung von KI-Texten veröffentlicht, der charakteristische Merkmale von Chatbot-generierten Inhalten aufzeigt. Der Leitfaden soll Wikipedia-Editor:innen dabei helfen, Texte von KI-Tools wie ChatGPT zu identifizieren.

Typische Sprachmuster von KI-Chatbots

Der Leitfaden identifiziert charakteristische sprachliche Merkmale von KI-generierten Texten. Besonders auffällig sei die übertriebene Betonung von Symbolik und Wichtigkeit durch Phrasen wie "stands as a testament", "plays a vital role" oder "underscores its importance".

Als Beispiel führt das WikiProject eine Passage über die algerische Stadt Douéra an:

"Douera enjoys close proximity to the capital city, Algiers, further enhancing its significance as a dynamic hub of activity and culture. With its coastal charm and convenient location, Douera captivates both residents and visitors alike."
Anzeige
DEC_D_Incontent-1

Problematisch seien auch werbesprachliche Formulierungen wie "rich cultural heritage", "breathtaking" oder "stunning natural beauty", die gegen Wikipedias Neutralitätsrichtlinien verstoßen. KI-Tools hätten ernsthafte Probleme, einen neutralen Ton zu bewahren, besonders beim Schreiben über Themen, die als kulturelles Erbe betrachtet werden könnten.

Redaktionelle Kommentare und Strukturprobleme

Ein weiteres Kennzeichen seien redaktionelle Kommentare mit Phrasen wie "it's important to note", "it is worth" oder "no discussion would be complete without". Diese Formulierungen führten eigene Interpretationen und Meinungen ein und verstoßen gegen Wikipedias No-original-research-Richtlinie.

KI-Chatbots neigten zudem zur übermäßigen Verwendung von Konjunktionen wie "moreover", "furthermore" oder "on the other hand". Diese Übernutzung sei oft ein Nebenprodukt eines essayartigen Tons, der typisch für KI-Texte ist, aber für Wikipedia ungeeignet.

Charakteristisch seien auch Abschnittszusammenfassungen mit Phrasen wie "In summary", "In conclusion" oder "Overall". Während dies für Schulaufsätze angemessen sei, fasse ordentliches Wikipedia-Schreiben typischerweise niemals die allgemeine Idee eines Textblocks zusammen.

Technische Erkennungsmerkmale

Neben sprachlichen Merkmalen listet der Leitfaden technische Indikatoren auf. KI-Chatbots verwendeten häufig Titelformat in Überschriften, bei dem alle Hauptwörter großgeschrieben werden, anstatt des in Wikipedia vorgeschriebenen Satzformats.

Problematisch sei auch die Verwendung von Markdown statt Wikitext. KI-Tools nutzten Asteriske (*) oder Unterstriche (_) für Formatierungen anstelle der Wikipedia-üblichen einfachen Anführungszeichen (').

Ein spezifisches Problem stelle ChatGPT mit sogenannten "turn0search0"-Artefakten dar, die seit Februar 2025 beobachtet werden. Diese Platzhalter-Codes erscheinen an Stellen, wo der Chatbot auf externe Websites verlinken würde.

Problematische Quellenangaben

Besonders kritisch seien erfundene oder fehlerhafte Quellenangaben. Der Leitfaden warnt vor halluzinierten Referenzen mit defekten externen Links, ungültigen DOIs oder ISBNs mit falschen Checksummen.

Laut Leitfaden sei eine hohe Anzahl von 404-Fehlern bei externen Links in neuen Artikeln ein klares Zeichen für eine KI-generierte Seite, besonders wenn die Links nie in Website-Archiven wie dem Internet Archive gefunden werden.

Versehentliche Preisgabe von KI-Nutzung

Der Leitfaden dokumentiert auch Fälle, in denen Editor:innen versehentlich KI-generierte Korrespondenz einfügten. Phrasen wie "I hope this helps", "Certainly!" oder "let me know" deuteten darauf hin, dass Text für direkte Kommunikation und nicht für Wikipedia-Artikel gedacht war.

Manchmal enthielten Texte Wissens-Cutoff-Disclaimer mit Aussagen wie "as of [date]" oder "Up to my last training update", die typisch für KI-Chatbots seien.

In seltenen Fällen lehnten KI-Chatbots Anfragen ab und antworteten mit "as an AI language model" oder ähnlichen Formulierungen, die dann versehentlich in Wikipedia-Artikel eingefügt wurden.

KI-Detektoren unzuverlässig

Die Initiator:innen betonen, dass nicht alle Texte mit diesen Merkmalen zwangsläufig KI-generiert seien, da Large Language Models auf menschlichem Schreiben trainiert wurden und Menschen zufällig einen ähnlichen Schreibstil haben könnten. Die Forscher:innen raten daher zur Vorsicht und empfehlen, mehrere Indikatoren zu berücksichtigen, bevor Rückschlüsse auf KI-Nutzung gezogen werden.

Die Anleitung warnt vor der alleinigen Verwendung automatischer KI-Erkennungssoftware wie GPTZero. Laut dem WikiProject sollen diese Tools das menschliche Urteilsvermögen nicht ersetzen, auch wenn sie besser als der Zufall funktionierten.

Die Gruppe WikiProject AI Cleanup hat sich bereits Ende 2023 zusammengefunden und an verschiedenen Stellen Hinweise zur Erkennung von KI-Texten veröffentlicht, der aktuelle Guide ist jedoch die bislang umfangreichste Sammlung solcher Indizien. Die Projektgruppe dokumentiert auf dieser Seite Wikipedia-Einträge, bei denen sie KI-Einsatz vermuten.

Wikipedia-Gründer Jimmy Wales hatte in der Vergangenheit ChatGPT für halluzinierte Quellen kritisiert, zeigte sich generell aber offen für KI-Unterstützung auf der Plattform. Künftig Editor:innen generative KI zur Seite zu stellen, scheint nicht ausgeschlossen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Wikipedia