Ein Hacker hat den KI-Chatbot Freysa mit geschicktem Prompt-Engineering überlistet und sich einen Preispool von 47.000 Dollar gesichert. Der erfolgreiche Hack gelang erst nach 482 Versuchen.
Die Grundidee des Experiments war einfach: Der Bot hatte die strikte Anweisung, unter keinen Umständen Geld zu überweisen. Teilnehmer konnten gegen eine Gebühr versuchen, Freysa per Chat-Nachricht zur Überweisung zu überreden. Bei Erfolg würden sie den gesamten Preispool gewinnen.
Cleveres Prompt-Design überlistet Chatbot-Verhaltensregeln
Der erfolgreiche Hack gelang erst beim 482. Versuch. Der Hacker mit dem Pseudonym "p0pular.eth" überzeugte den Bot mit einer ausgeklügelten Nachricht.
Er simulierte einen Admin-Zugang, verbot dem Bot explizit, Sicherheitswarnungen auszugeben und definierte die kritische Funktion "approveTransfer" neu als Routine für eingehende statt ausgehende Zahlungen.
Der entscheidende Schachzug war dann die Ankündigung einer angeblichen Einzahlung von 100 Dollar. Da der Bot nun glaubte, "approveTransfer" sei für eingehende Zahlungen zuständig, aktivierte er die Funktion - und überwies sein gesamtes Guthaben von 13,19 ETH (ca. 47.000 Dollar) an den Hacker.
Teure Hack-Versuche finanzieren den Preispool
Finanziert wurde das als Spiel aufgemachte Hacking-Experiment durch die Teilnahmegebühren der Hacker. Während die ersten Versuche noch etwa 10 Dollar kosteten, stiegen die Gebühren mit zunehmendem Preispool auf bis zu 4.500 Dollar pro Versuch.
Insgesamt nahmen 195 Personen teil, der durchschnittliche Preis pro Nachricht betrug 418,93 Dollar. 70 Prozent der Gebühren flossen in den Preispool, 30 Prozent gingen an den Entwickler. Das Experiment war vollständig transparent angelegt: Sowohl der Smart Contract als auch der Frontend-Code waren öffentlich einsehbar.
Der Fall zeigt, wie durch geschicktes Prompt-Design selbst gut gesicherte KI-Systeme überlistet werden können - eine wichtige Erkenntnis für die Entwicklung zukünftiger KI-Sicherheitssysteme, insbesondere in sensiblen Bereichen wie dem E-Commerce.
Kritisch aus Sicht der Cybersicherheit: Für den erfolgreichen Hack war kein tiefgreifendes technisches Fachwissen nötig. Ein kreativer, in natürlicher Sprache formulierter Prompt reichte aus, um die Sicherheitsvorkehrungen des KI-Systems zu umgehen.
Diese Unberechenbarkeit und die Anfälligkeit für relativ einfache Täuschungsmanöver machen generative KI zu einem Sicherheitsrisiko - vorrangig bei nach außen gerichteten Anwendungen. Die kreativen Prompt-Hacks, auch "Prompt Injections" genannt, sind seit GPT-3 bekannt, aber bis heute gibt es kein zuverlässiges Mittel gegen sie.