Inhalt
summary Zusammenfassung

Die chinesische Regierung hat einen Datensatz veröffentlicht, um Sprachmodelle zu trainieren, die ihren politischen Ansichten entsprechen. Das ist ein weiteres Beispiel dafür, wie die chinesische Regierung versucht, generative KI zu kontrollieren.

Der Industrieverband "Artificial Intelligence Security Governance Professional Committee" der "Cyberspace Administration of China (CAC)" hat einen öffentlichen Datensatz mit 50 Milliarden Token in 100 Millionen Datenpunkten vorgestellt. Dieser Datensatz ist offiziell von der Regierung genehmigt und entspricht ihrer politischen Linie.

Was die Größe des Datensatzes betrifft, so hat die gefilterte Version des Common Crawl Datensatzes, der für das Training von GPT-3 verwendet wurde, etwa 410 Milliarden Token. Metas Llama-2-Modelle wurden gar auf 2 Billionen Token trainiert.

Der CCP-Datensatz ist also relativ klein und wird allein wahrscheinlich nicht ausreichen, um ein großes, leistungsfähiges Sprachmodell zu trainieren.

Anzeige
Anzeige

Interessierte können den Datensatz nach Registrierung und Authentifizierung von der CAC-Website herunterladen.

Chinesische KI-Kontrolle

Die Ankündigung des Datensatzes ist insofern interessant, als sie zeigt, dass die chinesische Regierung weiterhin versucht, die sprachlichen und visuellen Fähigkeiten großer KI-Modelle, aber auch deren komplexe Beliebigkeit mit dem eigenen strengen politischen Diskurs in Einklang zu bringen.

China hat im vergangenen Sommer Richtlinien für generative KI-Dienste veröffentlicht. So müssen Organisationen, die KI-Systeme öffentlich anbieten, einen Sicherheitsüberprüfungsprozess durchlaufen. Generative KI-Dienste müssen den "Grundwerten des Sozialismus" entsprechen und dürfen nicht versuchen, die Staatsmacht oder das sozialistische System zu stürzen.

Wie das in der Praxis aussieht, zeigt etwa Baidus ERNIE-Bot, die chinesische Variante von ChatGPT, in einem aktuellen Test von CNN: Fragen zum Tiananmen-Massaker oder zur Aufhebung der Amtszeitbeschränkung durch Xi Jinping beantwortete ERNIE nicht. Nach mehreren Nachfragen wurde der Account von CNN gesperrt.

Baidus Bild-KI hatte zuvor die Generierung von Bildern zu politischen Prompts wie "Tian’anmen-Platz", dem Schauplatz des "Tian’anmen-Massakers", blockiert.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die chinesische Regierung hat einen offiziellen Datensatz mit 50 Milliarden Token veröffentlicht, um Sprachmodelle zu trainieren, die ihren politischen Ansichten entsprechen.
  • Der von der Cyberspace Administration of China (CAC) vorgestellte Datensatz entspricht der politischen Linie der Regierung und kann nach Registrierung und Authentifizierung von der CAC-Website heruntergeladen werden.
  • Der Schritt zeigt Chinas Bemühungen, die sprachlichen und visuellen Fähigkeiten großer KI-Modelle mit seinem strengen politischen Sprachgebrauch in Einklang zu bringen und generative KI-Dienste an die "Grundwerte des Sozialismus" anzupassen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!