KI-Texterkennung: Jeder Detektor hat seine Meinung

Mit dem Aufkommen von KI-Textgeneratoren wie ChatGPT stellte sich die Frage: Wie kann man KI-Texte von Texten unterscheiden, die von Menschen geschrieben wurden?

Diese Frage zieht sich durch alle Bereiche, von Lehrenden, die Hausarbeiten bewerten müssen, über Agenturen, die Texter:innen beauftragen, bis hin zu Suchmaschinen, die KI-Content einordnen wollen. KI-Text-Detektoren beantworten diese Frage eher nicht, zumindest nicht verlässlich.

Bisherige Ansätze wie DetectGPT, GPTzero und sogar OpenAIs eigener Textklassifikator konnten sowohl bei ChatGPT und GPT-3 als auch anderen KI-Generatoren noch keine zufriedenstellenden Ergebnisse liefern: Weder KI- noch menschliche Texte werden zuverlässig als solche erkannt, was sowohl im schulischen als auch im beruflichen Umfeld negative Folgen haben kann, wenn sich Menschen in Entscheidungspositionen dennoch auf die Ergebnisse verlassen.

Test zeigt: KI-Detektoren arbeiten nicht verlässlich

Ein Autor des Newsletters Pirate Wires hat einen umfangreicheren Test gestartet und verschiedene Texte von ihm und ChatGPT in die bekanntesten KI-Detektoren eingespeist, neben dem von OpenAI in GPTZero, Content at Scale, Writer.com, Corrector.app und CopyLeaks. Die Tests zeigen, dass sich die Tools nur selten einig sind.

Bei dem Testlauf mit fünf Texten, die der Autor in der Woche vom 13. Februar eingegeben hatte, hätten die Detektoren die Texte nie einstimmig und eindeutig als KI-generiert eingestuft.

Die Ergebnisse der Tools für eine KI-generierte Beschreibung von Zebras:

GPTZero: "Ihr Text wurde wahrscheinlich vollständig von einer KI geschrieben"

OpenAI: "Der Klassifikator hält den Text für möglicherweise KI-generiert".

Content at Scale: "Wahrscheinlich sowohl KI als auch Mensch!"

Writer.com: "75% von Menschen erstellte Inhalte"

Corrector.app: "Gefälscht 42,55%"

CopyLeaks: "KI-Inhalt erkannt"

Die Ergebnisse der Tools für eine KI-generierte Hochzeitseinladung:

GPTZero: "Ihr Text wurde wahrscheinlich vollständig von einer KI geschrieben"

OpenAI: "Der Klassifikator geht davon aus, dass der Text möglicherweise von einer KI verfasst wurde."

Content at Scale: "Unklar, ob es sich um KI-Inhalte handelt!"

Writer.com: "13% menschlich generierte Inhalte"

Corrector.app: "Gefälschte 99,97%"

CopyLeaks: "KI-Inhalt erkannt"

Bei von Menschen geschriebenem Text funktionierten die Tools dem Experiment zufolge besser, teilweise lagen sogar alle richtig. Allerdings merkt der Autor auch an, dass sich über den Untersuchungszeitraum die Ergebnisse teils stark voneinander unterschieden hätten, was eine systematische Auswertung praktisch unmöglich mache. Von Verlässlichkeit zeugt das aber noch weniger.

Allround-Erkenner wahrscheinlich nicht realistisch

Tech-Journalist Jon Stokes, Mitgründer von Ars Technica, glaubt, den Grund zu kennen. Wahrscheinlich seien manche der Detektoren zwar mit den Wahrscheinlichkeiten eines bestimmten Modells vertraut, wären dann aber bei Texten eines anderen überfordert.

Das ist besonders fragwürdig, da die meisten KI-Detektoren ihre Fähigkeiten modellunabhängig bewerben. Im Zuge leichter individualisierbarer Sprachmodelle, die die Erkennung ebenfalls erschweren dürften, wirft das kein gutes Licht auf die oftmals bezahlten Services.

Immerhin hat OpenAI mit der Veröffentlichung seines Klassifikators zugegeben, dass er nur einen kleinen Teil der KI-Inhalte zuverlässig richtig klassifizieren kann. OpenAI-Chef Sam Altman hat zudem mehrfach öffentlich erklärt, dass es keine dauerhaft zuverlässige KI-Texterkennung geben könne und das Bildungssystem nicht darauf vertrauen solle.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI in der Praxis

KI-Texterkennung: Jeder Detektor hat seine Meinung

Test zeigt: KI-Detektoren arbeiten nicht verlässlich

Allround-Erkenner wahrscheinlich nicht realistisch

Tesla zeigt Cybercab-Robotaxi, aber Roboter Optimus ist das größere Geschäft

OpenAI launcht "ChatGPT Record": Audio aufnehmen, transkribieren, zusammenfassen

RUBICON: Neues Bewertungssystem für KI-Unterhaltungen in der Softwareentwicklung

Sprachmodelle wie GPT-4 lernen laut Studie eher auswendig als zu schlussfolgern

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

KI-Texterkennung: Jeder Detektor hat seine Meinung

Test zeigt: KI-Detektoren arbeiten nicht verlässlich

Allround-Erkenner wahrscheinlich nicht realistisch

Artikel teilen

Bankverbindung