OpenAI veröffentlicht KI-Text-Detektor für ChatGPT und Co.

Der KI-Textklassifikator von OpenAI soll auch KI-Texte aus Sprachmodellen anderer Anbieter erkennen. Es gibt jedoch zahlreiche Einschränkungen und Abstufungen in Bezug auf die Zuverlässigkeit.

Der Klassifikator von OpenAI soll zwischen KI-Text und von Menschen geschriebenem Text unterscheiden können, ist aber nach Angaben der Firma nicht "vollständig zuverlässig". Bei der Auswertung eines "Challenge"-Datensatzes englischer Texte habe der Klassifikator 26 Prozent der von KI geschriebenen Texte korrekt als "wahrscheinlich von KI geschrieben" klassifiziert (true positives). In neun Prozent der Fälle wurden von Menschen geschriebene Texte fälschlicherweise als KI-Texte klassifiziert (false positives).

In einer AUC-Validierung (Area Under the Curve) erreichte der Klassifikator einen Wert von 0,97 im Validierungsset und 0,66 im Challenge-Set, verglichen mit 0,95 im Validierungsset und 0,43 im Challenge-Set für einen zuvor veröffentlichten Klassifikator. Mit zunehmender Größe des generierenden Sprachmodells nahm die Leistung des Klassifikators ab - im Umkehrschluss bedeutet dies, dass besonders große Sprachmodelle eher menschenähnlichen Text ohne vorhersagbare Muster generieren.

Die Zuverlässigkeit des Klassifikators steigt mit der Länge des Textes. Derzeit liegt die minimale Eingabegröße bei 1.000 Zeichen, was etwa 150 bis 250 Wörtern entspricht. Unterhalb dieser Grenze ist der Klassifikator "sehr unzuverlässig", schreibt OpenAI.

Die Web-Demo erlaubt daher keine Auswertung unterhalb dieser Grenze. OpenAI empfiehlt, den Klassifikator nur für englische Texte zu verwenden.

Text-Beurteilung in fünf Kategorien

Das Klassifikatormodell wurde mit Paaren von menschlichen und KI-Texten zum gleichen Thema trainiert. Die menschlichen Texte sind laut OpenAI "möglicherweise nicht repräsentativ für alle Arten von Texten, die von Menschen geschrieben werden". Sie stammen aus einem Wikipedia-Datensatz, dem 2019 gesammelten WebText-Datensatz und einem Satz menschlicher Demonstrationen, die im Rahmen des InstructGPT-Trainings gesammelt wurden.

Der KI-Textklassifikator von OpenAI unterscheidet die eingegebenen Texte in fünf Kategorien:

"Sehr unwahrscheinlich, dass es sich um KI-Text handelt" entspricht einem Klassifikator-Schwellenwert von <0,1. Ungefähr 5 Prozent der von Menschen geschriebenen Texte und 2 Prozent der von KI generierten Texte in unserem Challenge-Set tragen dieses Label.
"Unwahrscheinlich, dass es sich um KI-Text handelt" entspricht einem Klassifikator-Schwellenwert zwischen 0,1 und 0,45. Etwa 15 Prozent des von Menschen geschriebenen und 10 Prozent des von KI generierten Textes aus unserem Challenge-Set haben diese Einstufung.
"Unklar, ob es sich um KI-Text handelt" entspricht einem Klassifikator-Schwellenwert zwischen 0,45 und 0,9. Etwa 50 Prozent der von Menschen geschriebenen und 34 Prozent der von KI generierten Texte aus unserem Challenge-Set weisen diese Einstufung auf.
"Möglicherweise KI-generiert" entspricht einem Klassifikator-Schwellenwert zwischen 0,9 und 0,98. Ungefähr 21 Prozent der von Menschen geschriebenen Texte und 28 Prozent der von KI generierten Texte aus unserem Challenge Set haben dieses Label.
"Wahrscheinlich KI-generiert" entspricht einem Klassifikator-Schwellenwert >0,98. Ungefähr 9 Prozent des von Menschen geschriebenen Textes und 26 Prozent des von KI generierten Textes in unserem Challenge Set haben dieses Label.

Ein Beitrag zum Dialog über KI-Texte und keine Lösung für das Bildungssystem

"Es ist bekannt, dass Klassifikatoren, die auf neuronalen Netzen basieren, außerhalb ihrer Trainingsdaten schlecht kalibriert sind. Bei Eingaben, die sich stark von den Texten in unserem Trainingssatz unterscheiden, ist der Klassifikator manchmal extrem zuversichtlich und macht falsche Vorhersagen", schreibt OpenAI.

OpenAI weist ausdrücklich darauf hin, dass das Tool noch nicht für "Schüleraufsätze, automatisierte Desinformationskampagnen oder Chatprotokolle" evaluiert wurde.

Empfehlung

KI in der Praxis

OpenAIs neue Realtime API: KI-Assistenten sprechen jetzt in Echtzeit

Auch sei die Leistungsfähigkeit des Klassifikators noch nicht an Texten getestet worden, die von KI und Mensch gemeinsam verfasst wurden - was mit der häufigste Anwendungsfall für KI-Textverarbeitung sein dürfte.

OpenAI räumt auch ein, dass KI-Text leicht bearbeitet werden kann, um Klassifikatoren zu umgehen. Zwar könnten Modelle mit bekannten Angriffen aktualisiert werden, aber es sei unklar, ob die Erkennung von KI-Text langfristig einen Vorteil bringen würde.

Diese Einschränkungen gelten auch für andere kürzlich vorgestellte KI-Text-Detektoren wie DetectGPT und GPTZeroX. OpenAI CEO Sam Altman hatte sich bereits kritisch zum Nutzen von Detektoren geäußert, die seiner Meinung nach eine Halbwertszeit von wenigen Monaten haben könnten.

Das Bildungssystem ist daher weiter gut beraten, sich auf eine Zukunft vorzubereiten, in der KI-generierte Texte allgegenwärtig sind und Detektoren als zusätzliche Option für schwierige Plagiatsfälle eingesetzt werden, wie ich bereits an anderer Stelle argumentierte.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Der Klassifikator wird von OpenAI kostenlos im Web zur Verfügung gestellt. Voraussetzung für die Nutzung ist ein OpenAI-Account.

OpenAI veröffentlicht KI-Text-Detektor für ChatGPT und andere Modelle

Text-Beurteilung in fünf Kategorien

Ein Beitrag zum Dialog über KI-Texte und keine Lösung für das Bildungssystem

OpenAIs neue Realtime API: KI-Assistenten sprechen jetzt in Echtzeit

OpenAI erweitert Fine-Tuning-Methoden für KI-Modelle o4-mini und GPT-4.1

OpenAI bringt Deep Research für Github

ChatGPT wächst zweistellig inmitten schrumpfender Web-Giganten

US-Copyright-Behörde widerspricht KI-Industrie: Kein generelles Fair Use beim KI-Training

US-Denkfabrik warnt vor "umgekehrtem Brain Drain" in Chinas KI-Sektor

Umstrittenes KI-Manipulationsexperiment der Universität Zürich auf Reddit endet ohne Paper

OpenAI veröffentlicht KI-Text-Detektor für ChatGPT und andere Modelle

Text-Beurteilung in fünf Kategorien

Ein Beitrag zum Dialog über KI-Texte und keine Lösung für das Bildungssystem

Artikel teilen

Bankverbindung