KI-Text überschwemmt Bildungssysteme und das Internet. Zuverlässige Erkennungswerkzeuge würden mehr Kontrolle ermöglichen. Zwei neue Erkennungssysteme stellen sich vor.
DetectGPT wird von einem Forschungsteam der Stanford University um Eric Mitchell entwickelt. Die Idee ist, dass von einem LLM generierter Text dazu neigt, "Bereiche mit negativer Krümmung der logarithmischen Wahrscheinlichkeitsfunktion des Modells zu besetzen", schreibt das Team. Diese Eigenschaft trete bei vielen großen Sprachmodellen auf.
Ausgehend von dieser Beobachtung definiert der DetectGPT-Ansatz ein neues, auf der Krümmung basierendes Kriterium, um anhand einer Umformulierung im Vergleich zum Originaltext zu beurteilen, ob eine Passage mit einem LLM erzeugt wurde. Einfach ausgedrückt: Sprachgenerierung erfolgt nach einem mathematischen Muster, das DetectGPT identifizieren kann.
Quick q:
What do we expect the log probability function to look like in the neighborhood of a model sample?
We hypothesized that a model's samples are usually in local maxima of its log probability function, or more generally, in areas of negative curvature.
Spoiler: they are! pic.twitter.com/tu29ZUaLes
— Eric (@_eric_mitchell_) January 27, 2023
Nach Angaben des Forschungsteams klassifiziert ihr Verfahren KI-Text in den getesteten Szenarien mit einer Wahrscheinlichkeit von 95 Prozent und übertrifft bestehende Zero-Shot-Verfahren.
DetectGPT sei zudem bei einigen Datensätzen genauso gut oder deutlich besser als maßgeschneiderte Erkennungsmodelle, die mit Millionen von Beispielen trainiert wurden, schreibt die beteiligte Forscherin Chelsea Finn.
How does it compare to generated-vs-human classifiers trained to LOTS of data?
DetectGPT matches the performance of large supervised classifiers on some datasets and substantially outperforms them on others. pic.twitter.com/g2nR2MzZvV
— Chelsea Finn (@chelseabfinn) January 27, 2023
Für diese Leistung benötigt DetectGPT keinen separaten Klassifikator, keinen Vergleichsdatensatz mit realem und generiertem Text und kein explizites Wasserzeichen, wie es bei OpenAI in Entwicklung sein soll. Auch der Computerwissenschaftler Tom Goldstein von der University of Maryland hat vor wenigen Tagen eine wissenschaftliche Arbeit zu Wasserzeichen für große Sprachmodelle vorgelegt, die vielversprechende Erkennungsraten und zahlreiche offene Fragen beschreibt.
Viele Baustellen bei KI-Texterkennung
Trotz der hohen Erkennungsrate hat DetectGPT noch viele Einschränkungen: Unter anderem setzt die Methode voraus, dass die log-Wahrscheinlichkeiten des Modells ausgewertet werden können. API-Modelle wie GPT-3 würden die notwendigen Daten zwar bieten, aber die Auswertung würde Geld kosten, da der verdächtige Text erst durch das Modell verarbeitet werden muss. DetectGPT sei zudem rechenintensiver als andere Methoden.
Überdies gibt es viele Variablen bei der Textgenerierung, wie zum Beispiel die Nachbearbeitung eines KI-Textes durch Menschen, was wohl das häufigste Szenario sein dürfte. Laut Mitchell erreicht die KI-Text-Erkennung noch eine Genauigkeit von 0,9 AUROC (die verwendete Bewertungsskala, entspricht 90 Prozent), wenn 15 Prozent des KI-Textes verändert wurden. Mit zunehmendem Änderungsgrad nimmt die Genauigkeit jedoch kontinuierlich ab.
Responded to you elsewhere, but re: 2), we can still get pretty good results even if we "pre-perturb" the text before detection. With ~15% of the text replaced, we still have ~0.9 AUROC in our experiments. pic.twitter.com/LbFtI2iQps
— Eric (@_eric_mitchell_) January 29, 2023
Eine weitere offene Frage ist, ob LLMs durch spezielle Prompts dazu gebracht werden können, explizit Text zu erzeugen, der von Detektoren nicht erkannt wird. Dieses Szenario wurde vom DetectGPT-Team nicht untersucht.
GPTZeroX für das Bildungssystem
Auch das Entwicklungsteam von GPTZero stellt ein neues Produkt vor: GPTZeroX ist für das Bildungssystem entwickelt und soll im Vergleich zu bisherigen Versionen auf neuen Erkennungsmodellen basieren. Die Modelle würden ständig erneuert und in letzter Zeit habe es einige Durchbrüche gegeben, schreibt das Team.
GPTZeroX bietet API-Zugang für die Massenverarbeitung von Texten, wertet einen Text als Ganzes aus und kann dabei einzelne KI-Sätze hervorheben. Das System gibt eine Wahrscheinlichkeit aus, mit der ein Text von einer KI erstellt wurde. Eine wissenschaftliche Evaluierung von GPTZero liegt noch nicht vor.
Das System basiert ursprünglich auf der Erkennung von zwei Faktoren, die an menschlichen Autor:innen ausgerichtet sind: Perplexität, die Zufälligkeit in einem Satz, und Impulsivität ("burstiness"), die allgemeine Zufälligkeit aller Sätze in einem Text.
Die These: Bots neigen dazu, einfache Sätze zu generieren, während Menschen sich innerhalb eines Textes unterschiedlich komplex ausdrücken. Der 22-jährige Erfinder von GPTZero, Edward Tian, studiert in Princeton Computerwissenschaften und im Nebenfach Journalismus.
KI-Text-Detektoren sind eine Hilfe, keine Lösung
Abgesehen von den oben genannten offenen Fragen bezüglich der Zuverlässigkeit gibt es weitere gute Gründe, warum insbesondere das Bildungssystem KI-Textdetektoren nicht als Lösung für ein mögliches Problem mit KI-Plagiaten betrachten sollte.
Der wichtigste Grund ist, dass es legitime Zwecke für die Verwendung von Sprachmodellen beim Schreiben gibt, wie Übersetzungen und stilistische Verbesserungen. Neuere Modelle wie DeepL Write gehen dazu über, ganze Absätze nach gängigen Stilregeln zu optimieren. Unerfahrenen Schreiber:innen hilft das Werkzeug so, besser lesbare Texte nach den gängigen Regeln für gutes Schreiben zu verfassen.
In Zukunft könnte also der Inhalt eines Textes vollständig von einem Menschen erdacht, der Text selbst aber größtenteils von einer Maschine geschrieben worden sein. DetectGPT-Forscher Eric Mitchell geht davon aus, dass das Tool seines Teams Texte als maschinengeschrieben markiert, wenn sie mehr als 30 Prozent KI-Text enthalten - eine Grenze, die schnell erreicht ist.
Das Bildungssystem tut daher gut daran, sich auf eine Zukunft vorzubereiten, in der KI-generierte Texte allgegenwärtig sein werden, und Detektoren nur als zusätzliche Option für schwierige Plagiatsfälle einzusetzen.
Im schlimmsten Fall schrecken Detektoren ansonsten Schüler:innen und Studierende davon ab, entsprechende Tools nutzen, da sie unberechtigterweise als Plagiator:innen eingestuft werden könnten - und der mögliche Effizienzgewinn durch diese neuen Werkzeuge bliebe auf der Strecke.
OpenAI-Chef Sam Altman geht ohnehin davon aus, dass KI-Text-Detektoren eine Halbwertszeit von wenigen Monaten haben, bevor es Methoden gibt, sie zu überlisten.