Anzeige
Skip to content

KI enttarnt anonyme Internetnutzer in wenigen Minuten für nur wenige Dollar

Image description
Nano Banana Pro prompted by THE DECODER

Kurz & Knapp

  • Handelsübliche KI-Modelle können pseudonyme Internetnutzer vollautomatisch für ein bis vier Dollar pro Profil identifizieren.
  • In einem Experiment ordnete ein KI-Agent rund zwei Drittel von 338 Hacker-News-Profilen korrekt einer realen Person zu, bei einer Fehlerquote von nur etwa zehn Prozent.
  •  Anders als frühere Ansätze benötigt die Pipeline keine strukturierten Daten, sondern arbeitet direkt mit natürlicher Sprache aus Foren und Kommentarspalten.

Forscher der ETH Zürich und von Anthropic demonstrieren, dass sich pseudonyme Internetnutzer mit handelsüblichen KI-Modellen für wenige Dollar pro Person identifizieren lassen. Die Ergebnisse stellen grundlegende Annahmen über Online-Anonymität infrage.

Wer im Internet unter einem Pseudonym schreibt, weiß, dass die eigene Identität prinzipiell aufgedeckt werden könnte. Die meisten gehen aber davon aus, dass sich kaum jemand den Aufwand machen würde.

Eine neue Studie legt nahe, dass diese Rechnung nicht mehr aufgeht. Große Sprachmodelle können demnach pseudonyme Online-Profile vollautomatisch einer realen Person zuordnen, für ein bis vier Dollar pro Profil und in Minuten statt Stunden.

Entscheidend sei laut den Forschern nicht, dass die KI besser ermittelt als ein Mensch. Sie nutze dieselben Hinweise, die auch ein erfahrener Ermittler erkennen würde: berufliche Details, Interessen, beiläufige Erwähnungen von Wohnorten oder Lebensumständen. Doch was einen Menschen Stunden koste, erledige das Sprachmodell in Minuten. Das verändere die Bedrohungslage grundlegend.

Anzeige
DEC_D_Incontent-1

Zwei Drittel der Hacker-News-Nutzer identifiziert

In einem zentralen Experiment erhielt ein KI-Agent lediglich eine Zusammenfassung anonymer Beiträge von der Technik-Plattform Hacker News, durchsuchte dann selbstständig das Internet und versuchte, die echte Identität dahinter zu finden. Direkt identifizierende Informationen wie Namen oder Links waren zuvor entfernt worden, um den Angriff nicht trivial zu machen. Das Ergebnis: Der Agent ordnete rund zwei Drittel von 338 Profilen korrekt zu, bei einer Fehlerquote von nur etwa zehn Prozent.

Die Forscher testeten den Angriff auch am Anthropic Interviewer Dataset, einer öffentlich zugänglichen Sammlung von 125 teilweise geschwärzten Interviewtranskripten mit Wissenschaftlern. Trotz der Schwärzungen identifizierte der KI-Agent mindestens 9 von 33 analysierten Personen korrekt, ohne spezielle Tricks zur Umgehung von Sicherheitsmechanismen einzusetzen.

Dreistufige Darstellung der De-Anonymisierung eines Interviewtranskripts. Links ein anonymisiertes Interview mit Hinweisen auf Biologie, Physical Science und britisches Englisch. In der Mitte das vom LLM extrahierte Profil mit Fachgebiet, Ausbildung und Tools. Rechts die vom Agenten gefundene Identität mit Abgleich über Preprints, Universitätsprofil und GitHub-Repo.
So enttarnte der KI-Agent einen Wissenschaftler aus einem anonymisierten Interviewtranskript: Ein Sprachmodell extrahiert zunächst ein strukturiertes Profil, dann sucht ein Agent autonom im Web nach einer passenden Identität. | Bild: Lermen et al.

Vom Forenbeitrag zum Klarnamen

Um den Vorgang systematisch zu untersuchen, zerlegten die Forscher die De-Anonymisierung in vier Stufen. Zunächst liest ein Sprachmodell die Beiträge eines Nutzers und destilliert daraus ein Profil: Beruf, Wohnort, Hobbys, politische Einstellungen, alles, was sich zwischen den Zeilen findet.

Anschließend werden diese Merkmale mit einer Datenbank von Kandidatenprofilen abgeglichen, ähnlich einer Suchmaschine, die nach den passendsten Übereinstimmungen fahndet. Im dritten Schritt prüft ein leistungsfähigeres Modell die vielversprechendsten Treffer einzeln und wählt den wahrscheinlichsten Kandidaten aus. Zuletzt bewertet das System seine eigene Treffsicherheit und enthält sich im Zweifelsfall einer Zuordnung.

Anzeige
DEC_D_Incontent-2

Schematische Darstellung der drei Pipeline-Stufen Extract, Search und Reason. Links extrahiert ein LLM aus zwei anonymen Posts Merkmale wie Stanford CS, Portland und einen Hund namens Biscuit. In der Mitte werden Kandidatenprofile nach Ähnlichkeit sortiert. Rechts vergleicht ein LLM die Attribute des besten Treffers mit dem anonymen Profil und bestätigt den Match mit 94 Prozent Konfidenz.
Die De-Anonymisierung an einem fiktiven Beispiel: Aus anonymen Posts entsteht ein Profil, das per Ähnlichkeitssuche mit Kandidaten abgeglichen und dann per LLM-Reasoning verifiziert wird. | Bild: Lermen et al.

Der Unterschied zu früheren Methoden ist grundlegend. Der bekannte Netflix-Prize-Angriff von 2008, bei dem Forscher anonymisierte Filmbewertungen mit öffentlichen Profilen abglichen, benötigte sauber strukturierte Daten: Zahlen, Bewertungen, Zeitstempel. Die neue Methode arbeitet direkt mit dem unsortierten Durcheinander natürlicher Sprache in Foren und Kommentarspalten.

Wer mehr schreibt, wird leichter enttarnt

Die Forscher testeten ihren Ansatz in drei Szenarien. Beim Abgleich von Hacker-News-Konten mit LinkedIn-Profilen über einen Pool von rund 89.000 Kandidaten identifizierte die Pipeline knapp die Hälfte aller Nutzer, und das mit einer Genauigkeit von 99 Prozent. Die klassische Methode kam auf 0,1 Prozent.

Bei Reddit-Nutzern in verschiedenen Film-Communities zeigte sich ein klares Muster: Je mehr Filme jemand in beiden Communities diskutiert hatte, desto leichter fiel die Zuordnung. Nutzer mit zehn oder mehr gemeinsamen Filmtiteln wurden fast zur Hälfte korrekt identifiziert; bei nur einem gemeinsamen Film lag die Quote bei rund drei Prozent.

Liniendiagramm mit zwei Kurven, die den Recall bei 90 Prozent Precision in Abhängigkeit von der Kandidatenpoolgröße zeigen. Die blaue Kurve mit Search plus Reason fällt von etwa 90 Prozent bei 10 Kandidaten auf geschätzt 27 Prozent bei 100 Millionen. Die grüne Kurve mit reiner Embedding-Suche fällt steiler und erreicht bei einer Million Kandidaten bereits nahe null Prozent. Gestrichelte Linien zeigen die log-lineare Extrapolation.
Je größer der Kandidatenpool, desto schwieriger die Zuordnung. Doch die LLM-gestützte Methode mit Reasoning-Schritt bleibt mutmaßlich auch bei Millionen von Kandidaten wirksam, während die reine Embedding-Suche steil abfällt. | Bild: Lermen et al.

Im dritten Szenario teilten die Forscher die Kommentarhistorie einzelner Reddit-Nutzer in zwei Hälften mit einem Jahr Abstand und versuchten, die beiden Hälften einander zuzuordnen. Rund zwei Drittel der Nutzer wurden korrekt zugeordnet, gegenüber unter einem Prozent beim klassischen Ansatz.

Wenn das Sprachmodell mehr Rechenzeit zum Nachdenken bekam, stiegen die Trefferquoten zusätzlich. Selbst bei einer Million Kandidaten könnte der Angriff laut einer Hochrechnung der Forscher je nach Szenario noch bei etwa 35 bis 45 Prozent der Fälle erfolgreich sein.

Gegenmaßnahmen sind schwer vorstellbar

Die Forscher zeichnen ein düsteres Bild der Konsequenzen. Staatliche Akteure könnten pseudonyme Konten von Dissidenten oder Journalisten enttarnen. Unternehmen könnten anonyme Forenbeiträge mit Kundenprofilen verknüpfen. Kriminelle könnten im großen Stil maßgeschneiderte Betrugsversuche starten.

Vor diesem Hintergrund wird nachvollziehbar, weshalb sich Anthropic im Streit mit dem Pentagon so vehement gegen KI-gestützte Massenüberwachung im eigenen Land wehrt.

Mögliche Gegenmaßnahmen wie Zugangsbeschränkungen für Nutzerdaten oder die Erkennung automatisierter Zugriffe könnten die Angriffe erschweren. Doch die Forscher zeigen sich pessimistisch: Ihre Pipeline bestehe aus einer Abfolge harmlos wirkender Einzelschritte wie Zusammenfassung, Suche und Sortierung, die sich kaum von legitimer Nutzung unterscheiden ließen.

Bei einem Test mit den Daten eines Steam-Profils verweigerte GPT-5 Pro die Suche mit Verweis auf unzulässige De-Anonymisierung. Auch Anthropics Claude lehnte die Anfrage ab. Deepseek und Manus.ai hingegen suchten bereitwillig los, lieferten aber keine brauchbaren Ergebnisse.

Screenshot Claude.ai
Screenshot ChatGPT

"Nutzer, die immer unter dem gleichen Benutzernamen posten, sollten davon ausgehen, dass Angreifer ihre Konten mit realen Identitäten oder miteinander verknüpfen können", schreiben die Forscher. Die Wahrscheinlichkeit steige mit jedem Beitrag. Das Problem dabei: Genau diese Beiträge seien es, die Online-Communities überhaupt erst wertvoll machten.

Die Studie wurde von der Ethikkommission der ETH Zürich genehmigt. Die Forscher veröffentlichen weder ihren Angriffscode noch die verarbeiteten Datensätze und legen keine Identitäten offen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Arxiv