Eine Studie untersucht die Wirksamkeit von GenAI-Texterkennungswerkzeugen. Das Ergebnis: Die Werkzeuge sollten nicht in Schulen oder Hochschulen eingesetzt werden.
Laut der Studie, die von Forschern der British University Vietnam und der James Cook University Singapur durchgeführt wurde, weisen GenAI-Texterkennungswerkzeuge erhebliche Schwächen auf, wenn sie mit manipulierten, maschinengenerierten Inhalten konfrontiert werden. Die Studie, die die Effektivität von sechs führenden Detektoren an 805 Textproben testete, ergab, dass die ohnehin geringe Genauigkeit der Detektoren von durchschnittlich 39,5 % auf 17,4 % sank, wenn sie mit manipulierten Inhalten, wie absichtlich hinzugefügten Rechtschreib- und Grammatikfehlern, konfrontiert wurden.
Die Ergebnisse zeigen eine signifikante Varianz sowohl in der Erkennungsgenauigkeit von KI-generierten Texten als auch in der Anfälligkeit für False-Positive-Raten zwischen den verschiedenen Tools. Copyleaks zeigte die höchste Genauigkeit bei der Erkennung von unmanipulierten und manipulierten Inhalten, hatte aber mit 50 % die höchste False-Positive-Rate unter den evaluierten Tools. Im Gegensatz dazu hatten mehrere Tools wie GPT-2 Output Detector, ZeroGPT und Turnitin eine Falsch-Positiv-Rate von 0 %, was bedeutet, dass sie keine der von Menschen geschriebenen Kontrollproben fälschlicherweise als KI-generiert klassifizierten - dafür erkannten sie aber mehr als 50 % der KI-generierten Texte nicht.
Tool | Genauigkeit (nicht manipuliert) | Genauigkeit (manipuliert) | Falsch-Positiv-Rate |
---|---|---|---|
Copyleaks | 73,9% | 58,7% | 50% |
Crossplag | 54,3% | 32,4% | 30% |
GPT-2 Output Detector | 34,7% | 17,5% | 0% |
ZeroGPT | 31,3% | 17,3% | 0% |
GPTZero | 26,4% | 16,7% | 10% |
Turnitin | 50% | 7,9% | 0% |
GPT Kit | 6% | 4,5% | 0% |
Getestete Sprachmodelle umfassen GPT-4, Claude 2 und Bard. Mit den neuen Modellen Gemini und vor allem Claude 3 dürfte das Problem also nur noch größer geworden sein.
Forscher raten von Tools für KI-Texterkennung ab
Texterkennungswerkzeuge versagen also schnell, sobald kleine Änderungen vorgenommen werden, und diejenigen, die bessere Erkennungsraten liefern, klassifizieren menschliche Texte auch häufiger als KI-generiert.
Aufgrund dieser Genauigkeitseinschränkungen und vor allem wegen des Potenzials für falsche Anschuldigungen kommt das Team zu dem Schluss, dass diese Werkzeuge derzeit nicht zur Aufdeckung von Verstößen gegen die akademische Integrität empfohlen werden können.
Die Studie weist auch auf die Ungleichheiten und Inklusionsprobleme hin, die durch die einvernehmliche Akzeptanz von GenAI-Tools im wissenschaftlichen Verlagswesen entstehen könnten. Dies könnte bestimmte Gruppen von Studierenden und Forschenden benachteiligen, z.B. durch Barrieren beim Internetzugang, finanzielle Barrieren beim Zugang zu kostenpflichtigen GenAI-Tools und andere Zugangsprobleme wie Behinderungen, die zu einer Verschärfung der 'digitalen Armut' führen könnten.
Das Team empfiehlt daher, Diskussionen über akademische Integrität zu fördern, für die Texterkennungswerkzeuge als Anlass dienen könnten. Darüber hinaus seien alternative Bewertungsmethoden und eine positive Nutzung von GenAI-Tools zur Unterstützung des Lernprozesses erforderlich.