Bei KI-Inhalten herrscht derzeit Wilder Westen - generiert wird, was funktioniert, eine Transparenzpflicht gibt es nicht. China und OpenAI arbeiten an Gegenmaßnahmen.
Neben dem Thema Copyright von Trainingsinhalten für KI-Modelle treibt die Branche eine weitere grundlegende Frage um: Was ist mit all den KI-Inhalten, die als solche kaum (Bilder) oder nicht mehr (Texte) zu erkennen sind?
Welche Folgen könnten diese Inhalte für die Gesellschaft haben: Stehen uns Informationssuperstau und Massenentlassungen in der Medienbranche bevor? Sind Aufsätze und Hausarbeiten wirklich tot? Rollt eine viel gewieftere Fake-News- und Spam-Welle auf uns zu?
Damit unsere Gesellschaft bei diesen und ähnlichen Fragen überhaupt eine bewusste Entscheidung treffen und regulierend eingreifen kann, braucht es zunächst: Transparenz. Hinter welcher Arbeit steckt der Mensch, hinter welcher die Maschine? Ohne diese Transparenz haben Regulierungsversuche einen schweren Stand.
China verbannt KI-Medien ohne Kennzeichnung
Die chinesische Cyberspace-Behörde, die unter anderem das Internet in China reguliert und zensiert, untersagt die Generierung von KI-Medien ohne Wasserzeichen. Diese neue Regel gilt ab dem 10. Januar 2023.
Die Behörde spricht von Gefahren durch "Deep-Synthesis-Technologie", die zwar Nutzungsbedürfnisse erfülle und Nutzungserfahrungen verbessere, jedoch auch für die Verbreitung illegaler und schädlicher Informationen, für Rufschädigung und die Fälschung von Identitäten missbraucht werde.
Diese Betrugsversuche würden die nationale Sicherheit und soziale Stabilität gefährden, heißt es in einer Mitteilung der Behörde. Neue Produkte in diesem Segment müssen daher zuerst von der Behörde bewertet und freigegeben werden.
Die Behörde betont die Bedeutung von Wasserzeichen, die KI-Inhalt als solchen identifizieren, dabei aber nicht die Funktion der Software einschränken. Diese Wasserzeichen dürften nicht gelöscht, manipuliert oder verborgen werden. Nutzer:innen der KI-Software müssen sich mit ihrem echten Namen für Konten registrieren und ihre Generierungen müssten rückverfolgbar sein, lautet eine weitere Bedingung.
OpenAI sucht eine Nachweistechnik für KI-Texte
Insbesondere ungekennzeichnete KI-Texte könnten die Gesellschaft vor neue Herausforderungen stellen. Ein Beispiel dafür ist das Bildungssystem, das seit dem Start von ChatGPT in Teilen den Tod der Hausarbeit befürchtet.
Zurecht: KI-Textsysteme wie ChatGPT sind besonders gut darin, häufig aufgeschriebene und klar dokumentierte Erkenntnisse kompakt, verständlich und weitgehend fehlerfrei in neuen Worten wiederzugeben. Sie sind daher wie gemacht für Schulaufgaben, die sich meist auf schon vorhandenes, relativ niedrigschwelliges Wissen stützen.
Weitere Beispiele für den potenziell schädlichen Einsatz von KI-Texten sind elaborierter Spam oder die massenhafte Verbreitung betrügerischer Inhalte und Propaganda auf Fake-Webseiten oder in Social-Media-Profilen. All das passiert zwar schon jetzt, aber die Text-KI-Systeme könnten Qualität und Umfang dieser Inhalte steigern.
OpenAI, das Unternehmen hinter ChatGPT und GPT-3, befasst sich daher mit der Transparenz KI-generierter Inhalte über eine technische, statistische Kennzeichnung. Das Ziel: Zukünftig soll es deutlich schwieriger werden, einen KI-generierten Text als einen von Menschen geschriebenen Text weiterzureichen.
Das Unternehmen experimentiert unter anderem mit einer kryptografischen Ummantelung für KI-Text auf Serverebene, die über einen Schlüssel als Wasserzeichen erkannt werden kann. Derselbe Schlüssel dient als Wasserzeichen und für die Kontrolle.
"Empirisch gesehen scheinen ein paar hundert Token auszureichen, um ein vernünftiges Signal zu erhalten, dass dieser Text von [einem KI-System] stammt. Im Prinzip könnte man sogar einen langen Text nehmen und isolieren, welche Teile wahrscheinlich von [dem System] stammen und welche nicht", sagt Informatikprofessor Scott Aaronson von der Universität Texas, der derzeit als Gastforscher bei OpenAI an dem System mitarbeitet.
OpenAIs Forschende möchten das beschriebene System in den kommenden Monaten detaillierter in einem Paper vorstellen. Es sei zudem nur eine der Nachweistechniken, die derzeit erforscht würden, sagt das Unternehmen.
Doch selbst wenn es OpenAI oder einem anderen Unternehmen gelänge, einen funktionierenden Nachweismechanismus zu implementieren und die Branche sich auf einen Standard einigen könnte, wäre das Transparenz-Problem damit wohl nicht endgültig gelöst.
Stable Diffusion zeigt, dass Open Source generative KI auf Augenhöhe mit kommerziellen Angeboten agieren kann. Das könnte auch für Sprachmodelle gelten - entsprechende Bestrebungen existieren jedenfalls. Ergänzend zu einer Markierung KI-generierter Inhalte benötigt es zukünftig also womöglich noch ein Authentifizierungssystem für menschliche Urheberschaft.
Dieser Text wurde vollständig von einem Menschen (Matthias Bastian) verfasst.