Der KI-Textklassifikator von OpenAI soll auch KI-Texte aus Sprachmodellen anderer Anbieter erkennen. Es gibt jedoch zahlreiche Einschränkungen und Abstufungen in Bezug auf die Zuverlässigkeit.
Der Klassifikator von OpenAI soll zwischen KI-Text und von Menschen geschriebenem Text unterscheiden können, ist aber nach Angaben der Firma nicht "vollständig zuverlässig". Bei der Auswertung eines "Challenge"-Datensatzes englischer Texte habe der Klassifikator 26 Prozent der von KI geschriebenen Texte korrekt als "wahrscheinlich von KI geschrieben" klassifiziert (true positives). In neun Prozent der Fälle wurden von Menschen geschriebene Texte fälschlicherweise als KI-Texte klassifiziert (false positives).
In einer AUC-Validierung (Area Under the Curve) erreichte der Klassifikator einen Wert von 0,97 im Validierungsset und 0,66 im Challenge-Set, verglichen mit 0,95 im Validierungsset und 0,43 im Challenge-Set für einen zuvor veröffentlichten Klassifikator. Mit zunehmender Größe des generierenden Sprachmodells nahm die Leistung des Klassifikators ab - im Umkehrschluss bedeutet dies, dass besonders große Sprachmodelle eher menschenähnlichen Text ohne vorhersagbare Muster generieren.
Die Zuverlässigkeit des Klassifikators steigt mit der Länge des Textes. Derzeit liegt die minimale Eingabegröße bei 1.000 Zeichen, was etwa 150 bis 250 Wörtern entspricht. Unterhalb dieser Grenze ist der Klassifikator "sehr unzuverlässig", schreibt OpenAI.
Die Web-Demo erlaubt daher keine Auswertung unterhalb dieser Grenze. OpenAI empfiehlt, den Klassifikator nur für englische Texte zu verwenden.
Text-Beurteilung in fünf Kategorien
Das Klassifikatormodell wurde mit Paaren von menschlichen und KI-Texten zum gleichen Thema trainiert. Die menschlichen Texte sind laut OpenAI "möglicherweise nicht repräsentativ für alle Arten von Texten, die von Menschen geschrieben werden". Sie stammen aus einem Wikipedia-Datensatz, dem 2019 gesammelten WebText-Datensatz und einem Satz menschlicher Demonstrationen, die im Rahmen des InstructGPT-Trainings gesammelt wurden.
Der KI-Textklassifikator von OpenAI unterscheidet die eingegebenen Texte in fünf Kategorien:
- "Sehr unwahrscheinlich, dass es sich um KI-Text handelt" entspricht einem Klassifikator-Schwellenwert von <0,1. Ungefähr 5 Prozent der von Menschen geschriebenen Texte und 2 Prozent der von KI generierten Texte in unserem Challenge-Set tragen dieses Label.
- "Unwahrscheinlich, dass es sich um KI-Text handelt" entspricht einem Klassifikator-Schwellenwert zwischen 0,1 und 0,45. Etwa 15 Prozent des von Menschen geschriebenen und 10 Prozent des von KI generierten Textes aus unserem Challenge-Set haben diese Einstufung.
- "Unklar, ob es sich um KI-Text handelt" entspricht einem Klassifikator-Schwellenwert zwischen 0,45 und 0,9. Etwa 50 Prozent der von Menschen geschriebenen und 34 Prozent der von KI generierten Texte aus unserem Challenge-Set weisen diese Einstufung auf.
- "Möglicherweise KI-generiert" entspricht einem Klassifikator-Schwellenwert zwischen 0,9 und 0,98. Ungefähr 21 Prozent der von Menschen geschriebenen Texte und 28 Prozent der von KI generierten Texte aus unserem Challenge Set haben dieses Label.
- "Wahrscheinlich KI-generiert" entspricht einem Klassifikator-Schwellenwert >0,98. Ungefähr 9 Prozent des von Menschen geschriebenen Textes und 26 Prozent des von KI generierten Textes in unserem Challenge Set haben dieses Label.
Ein Beitrag zum Dialog über KI-Texte und keine Lösung für das Bildungssystem
"Es ist bekannt, dass Klassifikatoren, die auf neuronalen Netzen basieren, außerhalb ihrer Trainingsdaten schlecht kalibriert sind. Bei Eingaben, die sich stark von den Texten in unserem Trainingssatz unterscheiden, ist der Klassifikator manchmal extrem zuversichtlich und macht falsche Vorhersagen", schreibt OpenAI.
OpenAI weist ausdrücklich darauf hin, dass das Tool noch nicht für "Schüleraufsätze, automatisierte Desinformationskampagnen oder Chatprotokolle" evaluiert wurde.
Auch sei die Leistungsfähigkeit des Klassifikators noch nicht an Texten getestet worden, die von KI und Mensch gemeinsam verfasst wurden - was mit der häufigste Anwendungsfall für KI-Textverarbeitung sein dürfte.
OpenAI räumt auch ein, dass KI-Text leicht bearbeitet werden kann, um Klassifikatoren zu umgehen. Zwar könnten Modelle mit bekannten Angriffen aktualisiert werden, aber es sei unklar, ob die Erkennung von KI-Text langfristig einen Vorteil bringen würde.
Diese Einschränkungen gelten auch für andere kürzlich vorgestellte KI-Text-Detektoren wie DetectGPT und GPTZeroX. OpenAI CEO Sam Altman hatte sich bereits kritisch zum Nutzen von Detektoren geäußert, die seiner Meinung nach eine Halbwertszeit von wenigen Monaten haben könnten.
Das Bildungssystem ist daher weiter gut beraten, sich auf eine Zukunft vorzubereiten, in der KI-generierte Texte allgegenwärtig sind und Detektoren als zusätzliche Option für schwierige Plagiatsfälle eingesetzt werden, wie ich bereits an anderer Stelle argumentierte.
Der Klassifikator wird von OpenAI kostenlos im Web zur Verfügung gestellt. Voraussetzung für die Nutzung ist ein OpenAI-Account.