Google Deepmind hat das neue auf Datenschutz spezialisierte Sprachmodell VaultGemma vorgestellt. Es handelt sich um das bislang größte offene Modell (1 Milliarde Parameter), das von Grund auf mit sogenannter "differential privacy" trainiert wurde. Normalerweise können große Modelle Teile ihrer Trainingsdaten auswendig lernen – darunter auch sensible Informationen wie Namen, Adressen oder ganze Texte. Mit der Methode wird dem Training gezielt Zufallsrauschen hinzugefügt, sodass das Modell statistisch nicht auf einzelne Datenpunkte zurückgeführt werden kann. Selbst wenn VaultGemma auf vertraulichen Dokumenten trainiert würde, lassen sich diese später also nicht direkt rekonstruieren. Erste Tests zeigen laut Google tatsächlich, dass das Modell keine Trainingsdaten wiedergibt. Der Nachteil: Aktuell liefert es Ergebnisse, die in etwa LLMs ohne Privatschutz von vor fünf Jahren entsprechen. Die Modellgewichte sind auf Hugging Face und Kaggle frei verfügbar.

Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!