Poesie als Sicherheitslücke: Gedichte hebeln Sprachmodelle aus
Eine neue Studie zeigt: Das Umformulieren schädlicher Anfragen in Gedichtform funktioniert als universelle Jailbreak-Methode. Bei mehr als 25 führenden Sprachmodellen erzielten poetische Prompts Erfolgsquoten von bis zu 100 Prozent. Das unterstreicht einmal mehr, wie ungelöst das Thema LLM-Cybersecurity ist – wer rechnet schon mit Gedichten als Angriffstaktik?
