Inhalt
summary Zusammenfassung

Forscher der Hochschule Kaiserslautern haben eine neue Methode entwickelt, die mithilfe von Open Source Sprachmodellen Phishing-E-Mails erkennt. Der Ansatz kombiniert zwei KI-Techniken und erreicht damit deutlich bessere Ergebnisse als bisherige Verfahren.

Anzeige

Laut einer neuen Studie der Hochschule Kaiserslautern lassen sich Phishing-E-Mails mit einer Genauigkeit von bis zu 96 Prozent automatisch erkennen.

"Phishing ist eine der größten Bedrohungen für die Cybersicherheit. Schätzungen zufolge haben 90 Prozent aller erfolgreichen Cyberangriffe Phishing als initialen Angriffsvektor", schreiben die Wissenschaftler in ihrer Studie. Die Forscher kombinierten dafür zwei KI-Techniken: Few-Shot Learning und Retrieval-Augmented Generation (RAG).

Few-Shot Learning bedeutet hier, dass dem KI-Modell einige wenige Beispiele für Phishing-Mails als Kontext mitgegeben werden. Das Modell lernt so, worauf es achten muss, ohne neu trainiert zu werden. Die RAG-Komponente wählt diese Beispiele dynamisch aus: Für jede zu prüfende E-Mail sucht sie in einer Datenbank nach den fünf ähnlichsten bekannten Phishing-Mails. Diese werden dann als Kontext verwendet.

Anzeige
Anzeige

Die Forscher testeten ihre Methode mit elf verschiedenen Open Source Sprachmodellen, darunter Mixtral 8x7B, Llama 3.1 und die neue Gemma-Familie von Google DeepMind. Dabei zeigte sich, dass die Kombination aus Few-Shot Learning und RAG besonders bei größeren Modellen die Erkennungsrate deutlich verbessert.

Kleine Modelle überraschen mit guter Leistung

Das beste Ergebnis erzielte das große Llama 3.1 70B Modell mit einer Genauigkeit von 96,18 Prozent. Überraschend gut schnitt aber auch das deutlich kleinere Gemma2 9B ab, das eine nahezu gleich hohe Genauigkeit von 95 Prozent erreichte. Kleinere Modelle mit weniger als 10 Milliarden Parametern hätten allerdings Schwierigkeiten, die RAG-Methode effektiv zu nutzen.

Für ihre Tests nutzten die Forscher einen ausgewogenen Datensatz aus jeweils 2.900 legitimen und Phishing-E-Mails. Die Phishing-Mails stammten aus realen Angriffen der Jahre 2022 bis 2024. Die legitimen E-Mails kamen aus dem öffentlich verfügbaren CSDMC Spam Corpus.

Die Forscher sehen noch Potenzial für Verbesserungen: Künftig könnten zusätzliche Datenquellen eingebunden und auch E-Mail-Metadaten sowie Dateianhänge berücksichtigt werden. Auch der Einsatz von KI-Agenten, die auf APIs zugreifen können, sei eine vielversprechende Erweiterung.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher der Hochschule Kaiserslautern haben eine Methode entwickelt, die Phishing-E-Mails mit einer Genauigkeit von bis zu 96 Prozent erkennt. Sie kombiniert Few-Shot Learning und Retrieval-Augmented Generation (RAG) mit Open Source Sprachmodellen.
  • Das System wählt für jede zu prüfende E-Mail dynamisch fünf ähnliche bekannte Phishing-Mails als Kontext aus. In Tests mit elf verschiedenen Sprachmodellen erreichte das Llama 3.1 70B die höchste Genauigkeit von 96,18 Prozent, dicht gefolgt vom kleineren Gemma2 9B mit 95 Prozent.
  • Die Methode wurde mit einem Datensatz aus je 2.900 legitimen und Phishing-E-Mails getestet. Laut den Forschern könnte die Erkennungsrate durch die Integration von E-Mail-Metadaten, Dateianhängen und KI-Agenten mit API-Zugriff weiter verbessert werden.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!