Kommunistische Partei Chinas veröffentlicht politisch gebilligten LLM-Datensatz

29. Dezember 2023

DALL-E 3 prompted by THE DECODER

Die chinesische Regierung hat einen Datensatz veröffentlicht, um Sprachmodelle zu trainieren, die ihren politischen Ansichten entsprechen. Das ist ein weiteres Beispiel dafür, wie die chinesische Regierung versucht, generative KI zu kontrollieren.

Der Industrieverband "Artificial Intelligence Security Governance Professional Committee" der "Cyberspace Administration of China (CAC)" hat einen öffentlichen Datensatz mit 50 Milliarden Token in 100 Millionen Datenpunkten vorgestellt. Dieser Datensatz ist offiziell von der Regierung genehmigt und entspricht ihrer politischen Linie.

Was die Größe des Datensatzes betrifft, so hat die gefilterte Version des Common Crawl Datensatzes, der für das Training von GPT-3 verwendet wurde, etwa 410 Milliarden Token. Metas Llama-2-Modelle wurden gar auf 2 Billionen Token trainiert.

Der CCP-Datensatz ist also relativ klein und wird allein wahrscheinlich nicht ausreichen, um ein großes, leistungsfähiges Sprachmodell zu trainieren.

Interessierte können den Datensatz nach Registrierung und Authentifizierung von der CAC-Website herunterladen.

Chinesische KI-Kontrolle

Die Ankündigung des Datensatzes ist insofern interessant, als sie zeigt, dass die chinesische Regierung weiterhin versucht, die sprachlichen und visuellen Fähigkeiten großer KI-Modelle, aber auch deren komplexe Beliebigkeit mit dem eigenen strengen politischen Diskurs in Einklang zu bringen.

China hat im vergangenen Sommer Richtlinien für generative KI-Dienste veröffentlicht. So müssen Organisationen, die KI-Systeme öffentlich anbieten, einen Sicherheitsüberprüfungsprozess durchlaufen. Generative KI-Dienste müssen den "Grundwerten des Sozialismus" entsprechen und dürfen nicht versuchen, die Staatsmacht oder das sozialistische System zu stürzen.

Wie das in der Praxis aussieht, zeigt etwa Baidus ERNIE-Bot, die chinesische Variante von ChatGPT, in einem aktuellen Test von CNN: Fragen zum Tiananmen-Massaker oder zur Aufhebung der Amtszeitbeschränkung durch Xi Jinping beantwortete ERNIE nicht. Nach mehreren Nachfragen wurde der Account von CNN gesperrt.

Baidus Bild-KI hatte zuvor die Generierung von Bildern zu politischen Prompts wie "Tian’anmen-Platz", dem Schauplatz des "Tian’anmen-Massakers", blockiert.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 16 % Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Kommunistische Partei Chinas veröffentlicht politisch gebilligten LLM-Datensatz

Chinesische KI-Kontrolle

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.