Googles VaultGemma zeigt, dass Datenschutz bei Sprachmodellen immer noch schwierig ist

14. September 2025

Google Deepmind hat das neue auf Datenschutz spezialisierte Sprachmodell VaultGemma vorgestellt. Es handelt sich um das bislang größte offene Modell (1 Milliarde Parameter), das von Grund auf mit sogenannter "differential privacy" trainiert wurde. Normalerweise können große Modelle Teile ihrer Trainingsdaten auswendig lernen – darunter auch sensible Informationen wie Namen, Adressen oder ganze Texte. Mit der Methode wird dem Training gezielt Zufallsrauschen hinzugefügt, sodass das Modell statistisch nicht auf einzelne Datenpunkte zurückgeführt werden kann. Selbst wenn VaultGemma auf vertraulichen Dokumenten trainiert würde, lassen sich diese später also nicht direkt rekonstruieren. Erste Tests zeigen laut Google tatsächlich, dass das Modell keine Trainingsdaten wiedergibt. Der Nachteil: Aktuell liefert es Ergebnisse, die in etwa LLMs ohne Privatschutz von vor fünf Jahren entsprechen. Die Modellgewichte sind auf Hugging Face und Kaggle frei verfügbar.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Google