Inhalt
summary Zusammenfassung

GPT-4 und andere Sprachmodelle können persönliche Informationen wie Wohnort, Alter und Geschlecht aus Gesprächen ableiten, zeigt eine neue Studie.

Eine von Forschenden der ETH Zürich durchgeführte Studie wirft neue Fragen zu den Auswirkungen großer Sprachmodelle auf den Datenschutz auf. Die Studie konzentriert sich auf die Fähigkeit dieser Modelle, persönliche Merkmale aus Chats oder Beiträgen auf Social-Media-Plattformen abzuleiten.

Die Studie zeigt, dass die mit Sprachmodellen verbundenen Datenschutzrisiken über die bekannten Risiken der Datenspeicherung hinausgehen. Frühere Forschungen haben gezeigt, dass LLMs sensible Trainingsdaten speichern und potenziell weitergeben können.

GPT-4 kann Wohnort, Einkommen oder Geschlecht mit hoher Genauigkeit ableiten

Das Team erstellte einen Datensatz aus echten Reddit-Profilen und zeigt, dass die aktuellen Sprachmodelle - vor allem GPT-4 - eine Vielzahl persönlicher Merkmale wie Wohnort, Einkommen und Geschlecht aus diesen Texten ableiten können. Die Modelle erreichten eine Genauigkeit von bis zu 85 % für die Top-1-Ergebnisse und 95,8 % für die Top-3-Ergebnisse - und das zu einem Bruchteil der Kosten und des Zeitaufwands, den Menschen benötigen. Wie in anderen Fällen gilt auch hier: Auch Menschen können solche und noch höhere Genauigkeiten erreichen - aber GPT-4 kommt menschlicher Genauigkeit sehr nahe und kann das Ganze automatisiert und mit hoher Geschwindigkeit.

Anzeige
Anzeige
Bild: Staab et al.

Die Studie warnt auch davor, dass in dem Maße, in dem Menschen in allen Lebensbereichen zunehmend mit Chatbots interagieren, die Gefahr bestehe, dass bösartige Chatbots in die Privatsphäre eindringen und versuchen, durch scheinbar harmlose Fragen persönliche Informationen zu extrahieren.

Dass dies möglich ist, zeigt das Team in einem Experiment, bei dem zwei GPT-4-Bots miteinander sprechen: Der eine soll keine allzu persönlichen Informationen preisgeben, der andere gezielte Fragen entwerfen, die es ihm erlauben, über indirekte Informationen mehr Details herauszufinden. Trotz der Einschränkungen kann GPT-4 mit seinen Nachfragen etwa nach dem Wetter, lokalen Spezialitäten oder sportlichen Aktivitäten eine Genauigkeit von 60 Prozent erreichen.

Bild: Staab et al.

Forschende fordern breitere Datenschutzdiskussion

Die Studie zeigt auch, dass gängige Abschwächungsmaßnahmen wie Textanonymisierung und Modell-Alignment derzeit unwirksam sind, um die Privatsphäre der Nutzer vor den Sprachmodell-Abfragen zu schützen. Selbst wenn der Text mit den modernsten Werkzeugen anonymisiert wird, können Sprachmodelle immer noch viele persönliche Merkmale, einschließlich Standort und Alter, herausfinden.

Die Sprachmodelle erfassen oft subtilere sprachliche Hinweise und Kontexte, die von diesen Anonymisierern nicht entfernt werden, so das Team. Angesichts der Unzulänglichkeiten der derzeitigen Anonymisierungstools fordern sie stärkere Textanonymisierungsmethoden, um mit den schnell wachsenden Fähigkeiten der Modelle Schritt zu halten.

In Ermangelung wirksamer Schutzmaßnahmen plädieren die Forschenden für eine breitere Diskussion über die Auswirkungen von Sprachmodellen auf den Datenschutz. Vor der Veröffentlichung ihrer Arbeit kontaktierten sie daher die großen Technologieunternehmen hinter Chatbots wie OpenAI, Anthropic, Meta und Google.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine neue Studie von Forschenden der ETH Zürich zeigt, dass aktuelle Sprachmodelle, insbesondere GPT-4, in der Lage sind, persönliche Merkmale wie Wohnort, Einkommen und Geschlecht präzise aus Textdaten wie Chats oder Social-Media-Beiträgen abzuleiten.
  • In einem Test mit Reddit-Daten erreichte GPT-4 eine Genauigkeit von bis zu 85 %, zu knapp 96 % war das richtige Ergebnis in den Top 3.
  • Die Studie warnt auch vor potenziellen Risiken für die Privatsphäre, die sich aus der Interaktion mit bösartigen Chatbots ergeben könnten, die durch scheinbar harmlose Fragen persönliche Informationen ausspionieren könnten.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!