Googles VaultGemma zeigt, dass Datenschutz bei Sprachmodellen immer noch schwierig ist
Google Deepmind hat das neue auf Datenschutz spezialisierte Sprachmodell VaultGemma vorgestellt. Es handelt sich um das bislang größte offene Modell (1 Milliarde Parameter), das von Grund auf mit sogenannter "differential privacy" trainiert wurde. Normalerweise können große Modelle Teile ihrer Trainingsdaten auswendig lernen – darunter auch sensible Informationen wie Namen, Adressen oder ganze Texte. Mit der Methode wird dem Training gezielt Zufallsrauschen hinzugefügt, sodass das Modell statistisch nicht auf einzelne Datenpunkte zurückgeführt werden kann. Selbst wenn VaultGemma auf vertraulichen Dokumenten trainiert würde, lassen sich diese später also nicht direkt rekonstruieren. Erste Tests zeigen laut Google tatsächlich, dass das Modell keine Trainingsdaten wiedergibt. Der Nachteil: Aktuell liefert es Ergebnisse, die in etwa LLMs ohne Privatschutz von vor fünf Jahren entsprechen. Die Modellgewichte sind auf Hugging Face und Kaggle frei verfügbar.