Anzeige
Skip to content

KI-Text-Detektor Pangram erkennt laut Studie Maschinentexte fast perfekt

Image description
Sora prompted by THE DECODER

Kurz & Knapp

  • Forschende der University of Chicago zeigen, dass der kommerzielle Detektor Pangram menschliche und KI-generierte Texte in sechs Genres fast fehlerfrei unterscheidet.
  • Pangram bleibt auch bei Manipulationsversuchen durch sogenannte "Humanizer"-Tools robust und ist im Vergleich zu den Mitbewerbern kostengünstiger.
  • Die Studie warnt aber vor einem anhaltenden Wettrüsten zwischen Erkennungs- und Umgehungstools und empfiehlt regelmäßige Audits, um die Zuverlässigkeit der Detektoren sicherzustellen.

Eine Untersuchung der University of Chicago offenbart erhebliche Leistungsunterschiede zwischen kommerziellen KI-Erkennungstools. Während ein Detektor nahezu perfekte Ergebnisse erzielt, zeigen andere in bestimmten Szenarien deutliche Schwächen. 

Für ihre Untersuchung entwickelten die Forschenden einen umfassenden Datensatz aus 1.992 menschlichen Textpassagen, die sechs verschiedene Genres abdecken: Amazon-Produktbewertungen, Blog-Artikel, Nachrichtentexte, Romanauszüge, Restaurant-Bewertungen und Lebensläufe. Anschließend ließen sie vier aktuelle Sprachmodelle – GPT-4.1, Claude Opus 4, Claude Sonnet 4 und Gemini 2.0 Flash – entsprechende KI-Texte in denselben Kategorien generieren.

Die Bewertung der Detektoren erfolgte anhand zweier zentraler Kennzahlen: Die False-Positive-Rate (FPR) gibt den Anteil fälschlicherweise als KI-generiert klassifizierter menschlicher Texte an, die False-Negative-Rate (FNR) misst den Anteil übersehener KI-Texte.

Pangram dominiert die Konkurrenz deutlich

Der kommerzielle Detektor Pangram erreichte laut der Studie nahezu perfekte Ergebnisse. Bei mittellangen bis langen Textpassagen erzielte Pangram eine FPR und FNR von praktisch null. Selbst bei kürzeren Texten blieben beide Werte in der Regel unter 0,01. Eine Ausnahme waren Restaurantbewertungen von Gemini 2.0 Flash (FNR 0,02).

Anzeige
DEC_D_Incontent-1

Die Forschenden prüften auch OriginalityAI und GPTZero, die eine zweite Leistungsklasse bildeten. Beide Detektoren lieferten bei mittel­langen bis langen Texten solide Ergebnisse mit FPR-Werten von 0,01 oder niedriger. Bei sehr kurzen Texten versagten sie jedoch und zeigten sich zudem anfällig für sogenannte „Humanizer“-Tools, die KI-generierte Texte menschlicher wirken lassen, indem sie typische KI-Muster gezielt stören (siehe unten).

Tabelle zeigt False Positive Rates von vier KI-Text-Detektoren (GPTZero, Originality, Pangram, RoBERTa) aufgeteilt nach sechs Textgenres (Amazon Review, Blog, News, Novel, Restaurant Review, Resume). Pangram weist die niedrigsten Werte auf (0.0000-0.0075), RoBERTa die höchsten (0.3063-0.7775).
Pangram stuft menschliche Texte seltener fälschlicherweise als KI-generiert ein. | Bild: Jabarian und Imas

Der Open-Source-Detektor RoBERTa-base schnitt nach Angaben der Studie deutlich schlechter ab und klassifizierte 30 bis 69 Prozent der menschlichen Texte fälschlicherweise als KI-generiert.

Leistung variiert je nach KI-Modell

Pangram erkannte laut der Untersuchung Texte aller vier Modelle nahezu fehlerfrei, mit FNR-Werten von maximal 0,02 bei Restaurant-Bewertungen von Gemini 2.0 Flash. OriginalityAI zeigte modellabhängige Schwankungen in der Erkennungsleistung: Bei Texten von Gemini 2.0 Flash erreichte der Detektor deutlich bessere Trennschärfe zwischen menschlichen und KI-generierten Inhalten als bei Claude Opus 4-Texten. GPTZero erwies sich als weniger abhängig vom jeweiligen KI-Modell, erreichte aber durchgehend schlechtere Werte als Pangram.

Detaillierte Tabelle der False Negative Rates von vier KI-Text-Detektoren (GPTZero, Originality, Pangram, RoBERTa) aufgeschlüsselt nach vier Sprachmodellen (GPT-4.1, Claude Opus 4, Claude Sonnet 4, Gemini 2.0 Flash) und sechs Textgenres (Amazon Review, Blog, News, Novel, Restaurant Review, Resume). Pangram zeigt durchgehend die niedrigsten Werte nahe null, RoBERTa die höchsten Fehlerquoten bis zu 0.51.
Pangram übersieht KI-generierte Texte deutlich seltener als die Konkurrenz. | Bild: Jabarian und Imas

Die Forschenden stellten fest, dass längere Texte wie Romanauszüge und Lebensläufe generell leichter zu erkennen waren als kurze Amazon- oder Restaurantbewertungen. Bei sehr kurzen Texten stieg die Fehlerrate aller Detektoren an, wobei Pangram auch hier die beste Leistung zeigte.

Anzeige
DEC_D_Incontent-2

Robustheit gegen Manipulationsversuche variiert stark

Die Wissenschaftler:innen testeten die Widerstandsfähigkeit der Detektoren gegen StealthGPT, ein Tool, das KI-Texte "humanisieren" soll, um die Erkennung zu umgehen. Pangram blieb laut der Studie weitgehend robust gegen solche Manipulationen, während die anderen kommerziellen Detektoren deutliche Schwächen zeigten.

Bei sehr kurzen Texten unter 50 Wörtern zeigte Pangram die beste und insgesamt zuverlässigste Leistung. GPTZero lag beim FPR knapp dahinter, wies jedoch höhere Fehlerraten auf; OriginalityAI verweigerte bei vielen kurzen Texten die Bewertung.

Die Forschenden berechneten nicht nur die reinen API-Gebühren, sondern auch die Kosten pro korrekt erkanntem KI-Text. Pangram erwies sich dabei als deutlich kostengünstiger. Mit durchschnittlich 0,0228 Dollar pro korrekt identifiziertem KI-Text lag der Detektor etwa halb so teuer wie OriginalityAI (0,0416 Dollar) und etwa dreimal günstiger als GPTZero (0,0575 Dollar).

Neues Framework für Entscheidungsträger

Die Studie führt das Konzept der "Policy-Caps" ein. Dieses Framework soll Entscheidungsträger:innen helfen, Detektoren basierend auf ihrer Toleranz für Falscherkennungen auszuwählen. Dabei können Nutzer:innen eine maximale Fehlerrate festlegen, beispielsweise 0,5 Prozent für falsche Positive, und der Detektor wird entsprechend kalibriert.

Unter diesem System erwies sich Pangram als einziger Detektor, der auch bei strengen Policy-Caps von 0,5 Prozent FPR seine Erkennungsleistung aufrechterhalten konnte. Die anderen Detektoren zeigten bei solch strikten Vorgaben deutliche Leistungseinbußen.

Warnung vor Wettrüsten

Die Wissenschaftler:innen warnen, dass die Ergebnisse nicht dauerhaft gültig bleiben werden. Sie erwarten ein kontinuierliches "technisches Wettrüsten" zwischen Detektoren, KI-Modellen und Manipulationstools. Daher empfehlen sie regelmäßige und transparente Audits, ähnlich den Stresstests im Bankwesen.

Die Studie betont auch die Komplexität der praktischen Implementierung. Während KI-Tools wertvolle Hilfsmittel für Ideenfindung und Textverbesserung sein können, entstehen Probleme, wenn sie in Bereichen eingesetzt werden, in denen explizit menschlicher Input erwartet wird. Dies betreffe etwa Bildungseinrichtungen oder Produktbewertungen.

Die Ergebnisse der Untersuchung sind insofern überraschend, als KI-Detektoren in früheren Studien nahezu durchweg als unzuverlässig eingestuft wurden und Forschende vor ihrem Einsatz im Hochschulkontext warnten. OpenAI hatte zwar vor einiger Zeit einen eigenen Detektor vorgestellt, musste ihn aufgrund mangelnder Genauigkeit jedoch nach kurzer Zeit wieder zurückziehen.

Eine neue, leistungsfähige Version dieses Detektors wurde von OpenAI bislang nicht veröffentlicht. Dies dürfte auch daran liegen, dass es kaum im Interesse des Unternehmens ist, wenn ChatGPT-generierte Texte leicht identifiziert werden können. Zu einer bedeutenden Nutzergruppe zählen etwa Studierende und Schüler – ein zuverlässiger Detektor würde in diesem Bereich vermutlich zu einem spürbaren Rückgang der Nutzung führen.