Inhalt
summary Zusammenfassung

Der KI-Textklassifikator von OpenAI soll auch KI-Texte aus Sprachmodellen anderer Anbieter erkennen. Es gibt jedoch zahlreiche Einschränkungen und Abstufungen in Bezug auf die Zuverlässigkeit.

Anzeige

Der Klassifikator von OpenAI soll zwischen KI-Text und von Menschen geschriebenem Text unterscheiden können, ist aber nach Angaben der Firma nicht "vollständig zuverlässig". Bei der Auswertung eines "Challenge"-Datensatzes englischer Texte habe der Klassifikator 26 Prozent der von KI geschriebenen Texte korrekt als "wahrscheinlich von KI geschrieben" klassifiziert (true positives). In neun Prozent der Fälle wurden von Menschen geschriebene Texte fälschlicherweise als KI-Texte klassifiziert (false positives).

In einer AUC-Validierung (Area Under the Curve) erreichte der Klassifikator einen Wert von 0,97 im Validierungsset und 0,66 im Challenge-Set, verglichen mit 0,95 im Validierungsset und 0,43 im Challenge-Set für einen zuvor veröffentlichten Klassifikator. Mit zunehmender Größe des generierenden Sprachmodells nahm die Leistung des Klassifikators ab - im Umkehrschluss bedeutet dies, dass besonders große Sprachmodelle eher menschenähnlichen Text ohne vorhersagbare Muster generieren.

Die Zuverlässigkeit des Klassifikators steigt mit der Länge des Textes. Derzeit liegt die minimale Eingabegröße bei 1.000 Zeichen, was etwa 150 bis 250 Wörtern entspricht. Unterhalb dieser Grenze ist der Klassifikator "sehr unzuverlässig", schreibt OpenAI.

Anzeige
Anzeige

Die Web-Demo erlaubt daher keine Auswertung unterhalb dieser Grenze. OpenAI empfiehlt, den Klassifikator nur für englische Texte zu verwenden.

Text-Beurteilung in fünf Kategorien

Das Klassifikatormodell wurde mit Paaren von menschlichen und KI-Texten zum gleichen Thema trainiert. Die menschlichen Texte sind laut OpenAI "möglicherweise nicht repräsentativ für alle Arten von Texten, die von Menschen geschrieben werden". Sie stammen aus einem Wikipedia-Datensatz, dem 2019 gesammelten WebText-Datensatz und einem Satz menschlicher Demonstrationen, die im Rahmen des InstructGPT-Trainings gesammelt wurden.

Der KI-Textklassifikator von OpenAI unterscheidet die eingegebenen Texte in fünf Kategorien:

  • "Sehr unwahrscheinlich, dass es sich um KI-Text handelt" entspricht einem Klassifikator-Schwellenwert von <0,1. Ungefähr 5 Prozent der von Menschen geschriebenen Texte und 2 Prozent der von KI generierten Texte in unserem Challenge-Set tragen dieses Label.
  • "Unwahrscheinlich, dass es sich um KI-Text handelt" entspricht einem Klassifikator-Schwellenwert zwischen 0,1 und 0,45. Etwa 15 Prozent des von Menschen geschriebenen und 10 Prozent des von KI generierten Textes aus unserem Challenge-Set haben diese Einstufung.
  • "Unklar, ob es sich um KI-Text handelt" entspricht einem Klassifikator-Schwellenwert zwischen 0,45 und 0,9. Etwa 50 Prozent der von Menschen geschriebenen und 34 Prozent der von KI generierten Texte aus unserem Challenge-Set weisen diese Einstufung auf.
  • "Möglicherweise KI-generiert" entspricht einem Klassifikator-Schwellenwert zwischen 0,9 und 0,98. Ungefähr 21 Prozent der von Menschen geschriebenen Texte und 28 Prozent der von KI generierten Texte aus unserem Challenge Set haben dieses Label.
  • "Wahrscheinlich KI-generiert" entspricht einem Klassifikator-Schwellenwert >0,98. Ungefähr 9 Prozent des von Menschen geschriebenen Textes und 26 Prozent des von KI generierten Textes in unserem Challenge Set haben dieses Label.

Ein Beitrag zum Dialog über KI-Texte und keine Lösung für das Bildungssystem

"Es ist bekannt, dass Klassifikatoren, die auf neuronalen Netzen basieren, außerhalb ihrer Trainingsdaten schlecht kalibriert sind. Bei Eingaben, die sich stark von den Texten in unserem Trainingssatz unterscheiden, ist der Klassifikator manchmal extrem zuversichtlich und macht falsche Vorhersagen", schreibt OpenAI.

OpenAI weist ausdrücklich darauf hin, dass das Tool noch nicht für "Schüleraufsätze, automatisierte Desinformationskampagnen oder Chatprotokolle" evaluiert wurde.

Empfehlung

Auch sei die Leistungsfähigkeit des Klassifikators noch nicht an Texten getestet worden, die von KI und Mensch gemeinsam verfasst wurden - was mit der häufigste Anwendungsfall für KI-Textverarbeitung sein dürfte.

OpenAI räumt auch ein, dass KI-Text leicht bearbeitet werden kann, um Klassifikatoren zu umgehen. Zwar könnten Modelle mit bekannten Angriffen aktualisiert werden, aber es sei unklar, ob die Erkennung von KI-Text langfristig einen Vorteil bringen würde.

Diese Einschränkungen gelten auch für andere kürzlich vorgestellte KI-Text-Detektoren wie DetectGPT und GPTZeroX. OpenAI CEO Sam Altman hatte sich bereits kritisch zum Nutzen von Detektoren geäußert, die seiner Meinung nach eine Halbwertszeit von wenigen Monaten haben könnten.

Das Bildungssystem ist daher weiter gut beraten, sich auf eine Zukunft vorzubereiten, in der KI-generierte Texte allgegenwärtig sind und Detektoren als zusätzliche Option für schwierige Plagiatsfälle eingesetzt werden, wie ich bereits an anderer Stelle argumentierte.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Der Klassifikator wird von OpenAI kostenlos im Web zur Verfügung gestellt. Voraussetzung für die Nutzung ist ein OpenAI-Account.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI veröffentlicht einen Klassifikator für KI-Texte. Er ist mit einem OpenAI-Account kostenlos im Web verfügbar.
  • Die Zuverlässigkeit des Klassifikators steigt bei längeren Texten ab 1000 Zeichen (bis 250 Wörter). Ein Text-Test unterhalb dieser Grenze ist nicht möglich.
  • Das System hat einige Einschränkungen. Die wichtigste: Es wurde nicht für Texte evaluiert, die von Menschen und KI gemeinsam geschrieben wurden.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!