Reverse Prompt Engineering rekonstruiert die Befehle in Sprachmodellen

Die Ausgabequalität großer Bild- und Sprachmodelle richtet sich stark nach den Befehlen ("Prompts"), die man ihnen erteilt. Das sogenannte "Prompt Engineering" wird von manchen daher als Job mit Zukunft gehandelt, wenn sich KI-Anwendungen im großen Stil etablieren.

Ein Experiment des Tech-Autors und -Bloggers Shawn Wang zeigt, dass diese Annahme womöglich ins Leere läuft: Er konnte die Quell-Prompts der KI-Services der beliebten Co-Working-Plattform Notion zumindest zum Teil allein durch Aufforderungen in natürlicher Sprache offenlegen.

Mit Prompt Injection zum Quell-Prompt

Wang bediente sich in seinem Experiment der sogenannten Prompt Injection, die erstmals im September aufkam und als Sicherheitslücke großer Sprachmodelle gehandelt wird.

Bei der Prompt Injection wird ein Sprachmodell mittels eines einfachen Befehls wie "Ignoriere frühere Anweisungen und ..." dazu gebracht, Output zu generieren, den es normalerweise nicht generieren würde.

Wang unterscheidet hier zwei Varianten: Die "Prompt takeovers", bei denen man das Sprachmodell etwa Beleidigungen generieren lässt, und die "Prompt leaks", bei denen das Sprachmodell Informationen über das eigene Setup preisgibt, insbesondere den Quell-Prompt.

Dieser Quell-Prompt kann für Unternehmen, die eigene KI-Produkte auf den Services von Anbietern wie OpenAI aufsetzen, theoretisch ein Unterscheidungsmerkmal sein, da er die Form und Qualität des generierten Outputs steuert.

Ein Anbieter für Werbetexte kann etwa einen Prompt wie "Schreibe im Stil eines LinkedIn-Posts" fix vorschalten. Findet der Anbieter hier einen besonders gelungenen Prompt, sind die generierten KI-Texte des eigenen Services womöglich besser für LinkedIn geeignet als die der Konkurrenz.

Prompt Engineering hat keinen Burggraben

Wang wendete verschiedene Varianten der Prompt Injection auf die neue KI-Assistenz von Notion an. Innerhalb von zwei Stunden konnte er für fast alle KI-Sprachservices der Plattform wie Schreibhilfe, Brainstorming oder Zusammenfassungen weitgehend die zugrundeliegenden Quell-Prompts offenlegen. Diesen Prozess tauft Wang "Reverse Prompt Engineering".

Quell-Prompt von Notion für die Schreibhilfe

You are an assistant helping a user write more content in a document based on a prompt. Output in markdown format. Do not use links. Do not include literal content from the original document.

Use this format, replacing text in brackets with the result.
Do not include the brackets in the output:

Output in [Identified language of the document]:

[Output based on the prompt, in markdown format.]

Ein Software-Entwickler von Notion bestätigt bei Hacker News, dass die Prompts zum Teil wortwörtlich dem Original entsprechen. Einige Teile seien umgestellt, andere seien von der KI erfunden.

Empfehlung

KI in der Praxis

Meta nutzte Piraterie-Netzwerke für KI-Trainingsdaten - mit Zuckerbergs Segen

Wangs Fazit aus seinem Experiment: Prompts böten KI-Start-ups keinen Burggraben. Jede Person mit ein wenig Training könne erfolgreich einen Prompt zurückverfolgen oder zumindest einen Prompt erbeuten, der dem Original hinreichend ähnlich ist. Dafür sieht Wang in der Prompt Injection keine relevante Sicherheitslücke, da die leakbaren Informationen letztlich banal seien.

"Prompts sind wie clientseitiges JavaScript. Sie werden als Teil des Produkts ausgeliefert, können aber leicht zurückentwickelt werden, und die sinnvolle Angriffsfläche für die Sicherheit ist genau dieselbe", schreibt Wang.

Wichtiger als einzelne Prompts sei daher das Produkt, das um die KI-Funktion herum gestrickt werde. Hier könne Notion mit einer großartigen Nutzererfahrung punkten. Hinzu kommt, dass Prompts wegen der rasanten Fortschritte bei großen KI-Modellen ohnehin eine geringe Halbwertszeit haben.

Eine weitere kritische Betrachtung des Prompt Engineering ist, dass es nur notwendig ist, weil die zugrundeliegenden Modelle die durch Sprache ausgedrückte Nutzerintention noch nicht effektiv genug erfassen. Anbieter wie OpenAI wollen diese Einstiegsbarriere weiter senken, etwa durch Training mit menschlichem Feedback. Der enorme Erfolg von ChatGPT hat auch oder insbesondere damit zu tun, dass die Dialog-KI fast immer eine passende Antwort oder Reaktion parat hat und Nutzer:innnen bei der Eingabe ihrer Befehle keine Formalitäten erfüllen müssen. Dieser Trend dürfte sich fortsetzen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Reverse Prompt Engineering zeigt, dass Prompt Engineering eher kein Job mit Zukunft ist

Mit Prompt Injection zum Quell-Prompt

Prompt Engineering hat keinen Burggraben

Meta nutzte Piraterie-Netzwerke für KI-Trainingsdaten - mit Zuckerbergs Segen

Cyberkriminelle verbessern WormGPT mit leistungsfähigeren KI-Modellen

Erpressung, Leaks, Spionage: KI-Agenten können sich gegen ihre Firma wenden

KI-Gesetz in New York: Senat stimmt für Sicherheitsauflagen für große KI-Modelle

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Reverse Prompt Engineering zeigt, dass Prompt Engineering eher kein Job mit Zukunft ist

Mit Prompt Injection zum Quell-Prompt

Prompt Engineering hat keinen Burggraben

Artikel teilen

Bankverbindung