Kommunistische Partei Chinas veröffentlicht politisch gebilligten LLM-Datensatz

DALL-E 3 prompted by THE DECODER

Die chinesische Regierung hat einen Datensatz veröffentlicht, um Sprachmodelle zu trainieren, die ihren politischen Ansichten entsprechen. Das ist ein weiteres Beispiel dafür, wie die chinesische Regierung versucht, generative KI zu kontrollieren.

Der Industrieverband "Artificial Intelligence Security Governance Professional Committee" der "Cyberspace Administration of China (CAC)" hat einen öffentlichen Datensatz mit 50 Milliarden Token in 100 Millionen Datenpunkten vorgestellt. Dieser Datensatz ist offiziell von der Regierung genehmigt und entspricht ihrer politischen Linie.

Was die Größe des Datensatzes betrifft, so hat die gefilterte Version des Common Crawl Datensatzes, der für das Training von GPT-3 verwendet wurde, etwa 410 Milliarden Token. Metas Llama-2-Modelle wurden gar auf 2 Billionen Token trainiert.

Der CCP-Datensatz ist also relativ klein und wird allein wahrscheinlich nicht ausreichen, um ein großes, leistungsfähiges Sprachmodell zu trainieren.

Interessierte können den Datensatz nach Registrierung und Authentifizierung von der CAC-Website herunterladen.

Chinesische KI-Kontrolle

Die Ankündigung des Datensatzes ist insofern interessant, als sie zeigt, dass die chinesische Regierung weiterhin versucht, die sprachlichen und visuellen Fähigkeiten großer KI-Modelle, aber auch deren komplexe Beliebigkeit mit dem eigenen strengen politischen Diskurs in Einklang zu bringen.

China hat im vergangenen Sommer Richtlinien für generative KI-Dienste veröffentlicht. So müssen Organisationen, die KI-Systeme öffentlich anbieten, einen Sicherheitsüberprüfungsprozess durchlaufen. Generative KI-Dienste müssen den "Grundwerten des Sozialismus" entsprechen und dürfen nicht versuchen, die Staatsmacht oder das sozialistische System zu stürzen.

Wie das in der Praxis aussieht, zeigt etwa Baidus ERNIE-Bot, die chinesische Variante von ChatGPT, in einem aktuellen Test von CNN: Fragen zum Tiananmen-Massaker oder zur Aufhebung der Amtszeitbeschränkung durch Xi Jinping beantwortete ERNIE nicht. Nach mehreren Nachfragen wurde der Account von CNN gesperrt.

Baidus Bild-KI hatte zuvor die Generierung von Bildern zu politischen Prompts wie "Tian’anmen-Platz", dem Schauplatz des "Tian’anmen-Massakers", blockiert.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI in der Praxis

Kommunistische Partei Chinas veröffentlicht politisch gebilligten LLM-Datensatz

Chinesische KI-Kontrolle

OpenAI veröffentlicht o3-mini für kostenloses ChatGPT und API

KI-Startup 01.AI veröffentlicht Open-Source-LLM, das Metas Llama 2 übertrifft

Alibabas Cloud Computing-Einheit stellt zwei Open-Source-KI-Sprachmodelle vor

Alibaba stellt Konkurrenz zu DALL-E und Midjourney vor

KI-Coding kann Entwickler langsamer machen – auch wenn sie sich schneller fühlen

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Kommunistische Partei Chinas veröffentlicht politisch gebilligten LLM-Datensatz

Chinesische KI-Kontrolle

Artikel teilen

Bankverbindung