Die chinesische Regierung hat einen Datensatz veröffentlicht, um Sprachmodelle zu trainieren, die ihren politischen Ansichten entsprechen. Das ist ein weiteres Beispiel dafür, wie die chinesische Regierung versucht, generative KI zu kontrollieren.
Der Industrieverband "Artificial Intelligence Security Governance Professional Committee" der "Cyberspace Administration of China (CAC)" hat einen öffentlichen Datensatz mit 50 Milliarden Token in 100 Millionen Datenpunkten vorgestellt. Dieser Datensatz ist offiziell von der Regierung genehmigt und entspricht ihrer politischen Linie.
Was die Größe des Datensatzes betrifft, so hat die gefilterte Version des Common Crawl Datensatzes, der für das Training von GPT-3 verwendet wurde, etwa 410 Milliarden Token. Metas Llama-2-Modelle wurden gar auf 2 Billionen Token trainiert.
Der CCP-Datensatz ist also relativ klein und wird allein wahrscheinlich nicht ausreichen, um ein großes, leistungsfähiges Sprachmodell zu trainieren.
Interessierte können den Datensatz nach Registrierung und Authentifizierung von der CAC-Website herunterladen.
Chinesische KI-Kontrolle
Die Ankündigung des Datensatzes ist insofern interessant, als sie zeigt, dass die chinesische Regierung weiterhin versucht, die sprachlichen und visuellen Fähigkeiten großer KI-Modelle, aber auch deren komplexe Beliebigkeit mit dem eigenen strengen politischen Diskurs in Einklang zu bringen.
China hat im vergangenen Sommer Richtlinien für generative KI-Dienste veröffentlicht. So müssen Organisationen, die KI-Systeme öffentlich anbieten, einen Sicherheitsüberprüfungsprozess durchlaufen. Generative KI-Dienste müssen den "Grundwerten des Sozialismus" entsprechen und dürfen nicht versuchen, die Staatsmacht oder das sozialistische System zu stürzen.
Wie das in der Praxis aussieht, zeigt etwa Baidus ERNIE-Bot, die chinesische Variante von ChatGPT, in einem aktuellen Test von CNN: Fragen zum Tiananmen-Massaker oder zur Aufhebung der Amtszeitbeschränkung durch Xi Jinping beantwortete ERNIE nicht. Nach mehreren Nachfragen wurde der Account von CNN gesperrt.
Baidus Bild-KI hatte zuvor die Generierung von Bildern zu politischen Prompts wie "Tian’anmen-Platz", dem Schauplatz des "Tian’anmen-Massakers", blockiert.