Eine neue Studie von OpenAI zeigt: KI-Modelle werden robuster gegen Manipulationsversuche, wenn sie mehr Zeit zum "Nachdenken" bekommen. Die Forscher entdeckten dabei auch neue Angriffsmethoden.
In der Studie wurden verschiedene Arten von Angriffen auf die OpenAI-Modelle o1-preview und o1-mini getestet, wie Many-Shot-Angriffe, Soft-Token-Angriffe und menschliches Red-Teaming. Bei allen zeigte sich: Je mehr Zeit die Modelle zum "Nachdenken" hatten, desto besser konnten sie den Manipulationsversuchen widerstehen.
"Wir sehen, dass über verschiedene Aufgaben hinweg eine Erhöhung der Inferenz-Rechenzeit die Wahrscheinlichkeit eines erfolgreichen Angriffs reduziert", schreiben die Autoren. Diese Verbesserung tritt ein, ohne dass das Modell speziell auf die Angriffe trainiert werden muss.
Neue Angriffsmethoden entdeckt
Die Forscher haben aber auch einige Probleme identifiziert: In einigen Fällen steigt die Erfolgsrate von Angriffen zunächst sogar an, wenn mehr Rechenzeit zur Verfügung gestellt wird. Dies sei vor allem dann der Fall, wenn das Modell ein Minimum an Rechenzeit benötigt, um die vom Angreifer gewünschte Aufgabe überhaupt lösen zu können.
Auch die Kontrolle der Rechenzeit ist nicht perfekt. Die Forscher identifizierten zwei neue Arten von Angriffen, die speziell auf Reasoning-Modelle abzielen: Den "Think Less"-Angriff, der versucht, die Rechenzeit des Modells zu reduzieren, und das "Nerd Sniping", bei dem das Modell in unproduktive Denkschleifen gelockt wird.
Das Problem entsteht, wenn Modelle in "unproduktive Denkschleifen" geraten. Statt die zusätzliche Rechenzeit sinnvoll zu nutzen, verfangen sie sich in nutzlosen Überlegungen. Dies eröffnet Angreifern die Möglichkeit, die Modelle gezielt in solche ressourcenverschwendenden Schleifen zu locken. Anders als beim "Think Less"-Angriff, bei dem versucht wird, die Rechenzeit zu minimieren, zielt "Nerd Sniping" also darauf ab, die Rechenressourcen in unproduktive Bahnen zu lenken.
Besonders problematisch: Diese Art von Angriff ist schwerer zu erkennen als andere Schwachstellen. Während ein ungewöhnlich niedriger Rechenaufwand leicht auffällt, könnte erhöhte Rechenzeit fälschlicherweise als Zeichen besonders sorgfältiger Analyse interpretiert werden.
"Wir haben für diese Studie noch nicht untersucht, wie man dem Modell beibringen kann, die ihm zugeteilte Rechenzeit 'intelligent' zu nutzen", räumen die Autoren ein.