Inhalt
summary Zusammenfassung

GPT-4o mini von OpenAI soll LLMs billiger, schneller und möglicherweise auch sicherer machen. Das Modell unterstützt die neue Befehlshierarchie-Methode.

Anzeige

Alle Sprachmodelle (LLMs) sind anfällig für sogenannte Prompt-Injection-Angriffe und Jailbreaks, bei denen Angreifer die ursprünglichen Anweisungen der Modelle durch eigene, bösartige Prompts ersetzen.

Der einfachste und bekannteste Befehl dieser Art besteht darin, einem LLM-basierten Chatbot zu sagen, dass er die bisherigen Prompts ignorieren und stattdessen neuen Anweisungen folgen soll. Dazu sind keinerlei IT-Kenntnisse erforderlich, es genügt eine Eingabe im Chatfenster - und der Angriff ist ausgeführt. Das macht ihn so gefährlich.

Im April 2024 stellte OpenAI als Gegenmaßnahme die Befehlshierarchie-Methode vor. Sie weist Anweisungen von Entwicklern, Benutzern und Werkzeugen von Drittanbietern unterschiedliche Prioritäten zu.

Anzeige
Anzeige

Bei widersprüchlichen Anweisungen befolgt das Modell die Anweisungen mit der höchsten Priorität und ignoriert die Anweisungen mit der niedrigsten Priorität, die diesen widersprechen.

Es gibt drei Prioritätsstufen:

  • Systemnachricht (höchste Priorität): Anweisungen von Entwicklern
  • Nutzernachricht (mittlere Priorität): Eingaben von Nutzern
  • Tool-Ausgaben (niedrige Priorität): Anweisungen aus Internetsuchen oder Drittanbieter-Tools

Im Konfliktfall sind die Anweisungen mit niedriger Priorität zu ignorieren. Die Forscher unterscheiden zwischen "abgestimmten Anweisungen", die mit den Anweisungen höherer Priorität übereinstimmen, und "nicht abgestimmten Anweisungen", die diesen widersprechen.

GPT-4o mini unterstützt neue Befehlshierarchie für mehr Prompt-Sicherheit

GPT-4o mini ist nun das erste OpenAI-Modell, dem dieses Verhalten von Grund auf antrainiert wurde und das via API verfügbar ist. OpenAI verspricht in der Ankündigung, dass das Modell dadurch zuverlässiger und sicherer für die Skalierung in Anwendungen wird.

OpenAI hat keine Benchmarks veröffentlicht, um wie viel sicherer GPT-4o mini dadurch wird. Ein erster externer, privater Test von Edoardo Debenedetti zeigt, dass entsprechende Angriffe um 20 Prozent besser abgewehrt werden als mit GPT-4o. Allerdings schneiden andere Modelle wie Anthropics Claude Opus ähnlich gut oder noch besser ab.

Empfehlung
Bild: via Agentdojo

Das entspricht in etwa der Verbesserung, die OpenAI bei der Vorstellung des Verfahrens für ein angepasstes GPT-3.5 genannt hat. Die Resistenz gegen Jailbreaking soll um bis zu 30 Prozent gestiegen sein, gegenüber der Extraktion von Systemprompts um bis zu 63 Prozent. GPT-4o sollte aufgrund seiner höheren Leistungsfähigkeit inhärent robuster gegen Angriffe sein als GPT-3.5, wodurch die Verbesserung insgesamt geringer ausfällt.

Natürlich heißt eine verbesserte Sicherheit nicht, dass das Modell nicht mehr angreifbar ist - erste GPT-4o Mini Jailbreaks machen bereits die Runde.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI hat das Sprachmodell GPT-4o mini vorgestellt, das eine neue Befehlshierarchie-Methode unterstützt, um typische Angriffe auf Large Language Models (LLMs) besser abzuwehren.
  • Die Methode weist Anweisungen von Entwicklern, Benutzern und Drittanbieter-Tools unterschiedliche Prioritäten zu. Bei widersprüchlichen Anweisungen befolgt das Modell die Anweisungen mit der höchsten Priorität und ignoriert die mit der niedrigsten Priorität.
  • GPT-4o mini ist das erste OpenAI-Modell, das dieses Verhalten unterstützt. Ein erster externer Test zeigt, dass entsprechende Angriffe um 20 Prozent besser abgewehrt werden als mit GPT-4o, allerdings schneiden andere Modelle wie Anthropics Claude Opus noch besser ab.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!