Inhalt
summary Zusammenfassung

Eine Studie untersucht die Wirksamkeit von GenAI-Texterkennungswerkzeugen. Das Ergebnis: Die Werkzeuge sollten nicht in Schulen oder Hochschulen eingesetzt werden.

Laut der Studie, die von Forschern der British University Vietnam und der James Cook University Singapur durchgeführt wurde, weisen GenAI-Texterkennungswerkzeuge erhebliche Schwächen auf, wenn sie mit manipulierten, maschinengenerierten Inhalten konfrontiert werden. Die Studie, die die Effektivität von sechs führenden Detektoren an 805 Textproben testete, ergab, dass die ohnehin geringe Genauigkeit der Detektoren von durchschnittlich 39,5 % auf 17,4 % sank, wenn sie mit manipulierten Inhalten, wie absichtlich hinzugefügten Rechtschreib- und Grammatikfehlern, konfrontiert wurden.

Die Ergebnisse zeigen eine signifikante Varianz sowohl in der Erkennungsgenauigkeit von KI-generierten Texten als auch in der Anfälligkeit für False-Positive-Raten zwischen den verschiedenen Tools. Copyleaks zeigte die höchste Genauigkeit bei der Erkennung von unmanipulierten und manipulierten Inhalten, hatte aber mit 50 % die höchste False-Positive-Rate unter den evaluierten Tools. Im Gegensatz dazu hatten mehrere Tools wie GPT-2 Output Detector, ZeroGPT und Turnitin eine Falsch-Positiv-Rate von 0 %, was bedeutet, dass sie keine der von Menschen geschriebenen Kontrollproben fälschlicherweise als KI-generiert klassifizierten - dafür erkannten sie aber mehr als 50 % der KI-generierten Texte nicht.

Tool Genauigkeit (nicht manipuliert) Genauigkeit (manipuliert) Falsch-Positiv-Rate
Copyleaks 73,9% 58,7% 50%
Crossplag 54,3% 32,4% 30%
GPT-2 Output Detector 34,7% 17,5% 0%
ZeroGPT 31,3% 17,3% 0%
GPTZero 26,4% 16,7% 10%
Turnitin 50% 7,9% 0%
GPT Kit 6% 4,5% 0%

Getestete Sprachmodelle umfassen GPT-4, Claude 2 und Bard. Mit den neuen Modellen Gemini und vor allem Claude 3 dürfte das Problem also nur noch größer geworden sein.

Anzeige
Anzeige

Forscher raten von Tools für KI-Texterkennung ab

Texterkennungswerkzeuge versagen also schnell, sobald kleine Änderungen vorgenommen werden, und diejenigen, die bessere Erkennungsraten liefern, klassifizieren menschliche Texte auch häufiger als KI-generiert.

Aufgrund dieser Genauigkeitseinschränkungen und vor allem wegen des Potenzials für falsche Anschuldigungen kommt das Team zu dem Schluss, dass diese Werkzeuge derzeit nicht zur Aufdeckung von Verstößen gegen die akademische Integrität empfohlen werden können.

Die Studie weist auch auf die Ungleichheiten und Inklusionsprobleme hin, die durch die einvernehmliche Akzeptanz von GenAI-Tools im wissenschaftlichen Verlagswesen entstehen könnten. Dies könnte bestimmte Gruppen von Studierenden und Forschenden benachteiligen, z.B. durch Barrieren beim Internetzugang, finanzielle Barrieren beim Zugang zu kostenpflichtigen GenAI-Tools und andere Zugangsprobleme wie Behinderungen, die zu einer Verschärfung der 'digitalen Armut' führen könnten.

Das Team empfiehlt daher, Diskussionen über akademische Integrität zu fördern, für die Texterkennungswerkzeuge als Anlass dienen könnten. Darüber hinaus seien alternative Bewertungsmethoden und eine positive Nutzung von GenAI-Tools zur Unterstützung des Lernprozesses erforderlich.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie von Forschern der British University Vietnam und der James Cook University Singapur zeigt, dass GenAI-Texterkennungswerkzeuge erhebliche Schwächen aufweisen, insbesondere bei der Erkennung von manipulierten, KI-generierten Texten. Die durchschnittliche Genauigkeit sank von 39,5 % auf 17,4 %, wenn die Inhalte leicht verändert wurden.
  • Die evaluierten Tools zeigten große Unterschiede sowohl in der Erkennungsgenauigkeit als auch in der Anfälligkeit für falsch-positive Ergebnisse. Während Copyleaks die höchste Genauigkeit aufwies, hatte es mit 50 % auch die höchste Rate an fälschlicherweise als KI-generiert klassifizierten, von Menschen geschriebenen Texten.
  • Aufgrund der Genauigkeitseinschränkungen und des Potenzials für falsche Anschuldigungen rät das Forscherteam davon ab, diese Werkzeuge derzeit zur Aufdeckung von Verstößen gegen die akademische Integrität einzusetzen. Stattdessen empfehlen sie, den Fokus auf Diskussionen über akademische Integrität, alternative Bewertungsmethoden und eine positive Nutzung von GenAI-Tools zur Lernunterstützung zu legen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!