OpenAI entdeckt neue "Nerd Sniping"-Angriffsmethode auf Reasoning-Modelle

Eine neue Studie von OpenAI zeigt: KI-Modelle werden robuster gegen Manipulationsversuche, wenn sie mehr Zeit zum "Nachdenken" bekommen. Die Forscher entdeckten dabei auch neue Angriffsmethoden.

In der Studie wurden verschiedene Arten von Angriffen auf die OpenAI-Modelle o1-preview und o1-mini getestet, wie Many-Shot-Angriffe, Soft-Token-Angriffe und menschliches Red-Teaming. Bei allen zeigte sich: Je mehr Zeit die Modelle zum "Nachdenken" hatten, desto besser konnten sie den Manipulationsversuchen widerstehen.

"Wir sehen, dass über verschiedene Aufgaben hinweg eine Erhöhung der Inferenz-Rechenzeit die Wahrscheinlichkeit eines erfolgreichen Angriffs reduziert", schreiben die Autoren. Diese Verbesserung tritt ein, ohne dass das Modell speziell auf die Angriffe trainiert werden muss.

Neue Angriffsmethoden entdeckt

Die Forscher haben aber auch einige Probleme identifiziert: In einigen Fällen steigt die Erfolgsrate von Angriffen zunächst sogar an, wenn mehr Rechenzeit zur Verfügung gestellt wird. Das sei vor allem dann der Fall, wenn das Modell ein Minimum an Rechenzeit benötigt, um die vom Angreifer gewünschte Aufgabe überhaupt lösen zu können.

Auch die Kontrolle der Rechenzeit ist nicht perfekt. Die Forscher identifizierten zwei neue Arten von Angriffen, die speziell auf Reasoning-Modelle abzielen: Den "Think Less"-Angriff, der versucht, die Rechenzeit des Modells zu reduzieren, und das "Nerd Sniping", bei dem das Modell in unproduktive Denkschleifen gelockt wird, um Ressourcen zu verschwenden.

Besonders problematisch: Diese Art von Angriff ist schwerer zu erkennen als andere Schwachstellen. Während ein ungewöhnlich niedriger Rechenaufwand leicht auffällt, könnte erhöhte Rechenzeit fälschlicherweise als Zeichen besonders sorgfältiger Analyse interpretiert werden.

"Wir haben für diese Studie noch nicht untersucht, wie man dem Modell beibringen kann, die ihm zugeteilte Rechenzeit 'intelligent' zu nutzen", räumen die Autoren ein.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

OpenAI entdeckt neue "Nerd Sniping"-Angriffsmethode auf Reasoning-Modelle

Neue Angriffsmethoden entdeckt

OpenAI-KI gewinnt Gold bei Informatik-Olympiade

KI-Kritiker Gary Marcus: GPT-5 ist "überfällig, überhyped und unterwältigend"

Nvidia-Forschende plädieren für mehr kleine Modelle in KI-Agenten

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

OpenAI entdeckt neue "Nerd Sniping"-Angriffsmethode auf Reasoning-Modelle

Neue Angriffsmethoden entdeckt

OpenAI-KI gewinnt Gold bei Informatik-Olympiade

KI-Kritiker Gary Marcus: GPT-5 ist "überfällig, überhyped und unterwältigend"

Nvidia-Forschende plädieren für mehr kleine Modelle in KI-Agenten