Googles VaultGemma zeigt, dass Datenschutz bei Sprachmodellen immer noch schwierig ist
Google Deepmind hat das neue auf Datenschutz spezialisierte Sprachmodell VaultGemma vorgestellt. Es handelt sich um das bislang größte offene Modell (1 Milliarde Parameter), das von Grund auf mit sogenannter "differential privacy" trainiert wurde. Normalerweise können große Modelle Teile ihrer Trainingsdaten auswendig lernen – darunter auch sensible Informationen wie Namen, Adressen oder ganze Texte. Mit der Methode wird dem Training gezielt Zufallsrauschen hinzugefügt, sodass das Modell statistisch nicht auf einzelne Datenpunkte zurückgeführt werden kann. Selbst wenn VaultGemma auf vertraulichen Dokumenten trainiert würde, lassen sich diese später also nicht direkt rekonstruieren. Erste Tests zeigen laut Google tatsächlich, dass das Modell keine Trainingsdaten wiedergibt. Der Nachteil: Aktuell liefert es Ergebnisse, die in etwa LLMs ohne Privatschutz von vor fünf Jahren entsprechen. Die Modellgewichte sind auf Hugging Face und Kaggle frei verfügbar.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.