Inhalt
summary Zusammenfassung

Eine neue Studie von OpenAI zeigt: KI-Modelle werden robuster gegen Manipulationsversuche, wenn sie mehr Zeit zum "Nachdenken" bekommen. Die Forscher entdeckten dabei auch neue Angriffsmethoden.

Anzeige

In der Studie wurden verschiedene Arten von Angriffen auf die OpenAI-Modelle o1-preview und o1-mini getestet, wie Many-Shot-Angriffe, Soft-Token-Angriffe und menschliches Red-Teaming. Bei allen zeigte sich: Je mehr Zeit die Modelle zum "Nachdenken" hatten, desto besser konnten sie den Manipulationsversuchen widerstehen.

"Wir sehen, dass über verschiedene Aufgaben hinweg eine Erhöhung der Inferenz-Rechenzeit die Wahrscheinlichkeit eines erfolgreichen Angriffs reduziert", schreiben die Autoren. Diese Verbesserung tritt ein, ohne dass das Modell speziell auf die Angriffe trainiert werden muss.

Neue Angriffsmethoden entdeckt

Die Forscher haben aber auch einige Probleme identifiziert: In einigen Fällen steigt die Erfolgsrate von Angriffen zunächst sogar an, wenn mehr Rechenzeit zur Verfügung gestellt wird. Dies sei vor allem dann der Fall, wenn das Modell ein Minimum an Rechenzeit benötigt, um die vom Angreifer gewünschte Aufgabe überhaupt lösen zu können.

Anzeige
Anzeige

Auch die Kontrolle der Rechenzeit ist nicht perfekt. Die Forscher identifizierten zwei neue Arten von Angriffen, die speziell auf Reasoning-Modelle abzielen: Den "Think Less"-Angriff, der versucht, die Rechenzeit des Modells zu reduzieren, und das "Nerd Sniping", bei dem das Modell in unproduktive Denkschleifen gelockt wird.

Das Problem entsteht, wenn Modelle in "unproduktive Denkschleifen" geraten. Statt die zusätzliche Rechenzeit sinnvoll zu nutzen, verfangen sie sich in nutzlosen Überlegungen. Dies eröffnet Angreifern die Möglichkeit, die Modelle gezielt in solche ressourcenverschwendenden Schleifen zu locken. Anders als beim "Think Less"-Angriff, bei dem versucht wird, die Rechenzeit zu minimieren, zielt "Nerd Sniping" also darauf ab, die Rechenressourcen in unproduktive Bahnen zu lenken.

Besonders problematisch: Diese Art von Angriff ist schwerer zu erkennen als andere Schwachstellen. Während ein ungewöhnlich niedriger Rechenaufwand leicht auffällt, könnte erhöhte Rechenzeit fälschlicherweise als Zeichen besonders sorgfältiger Analyse interpretiert werden.

"Wir haben für diese Studie noch nicht untersucht, wie man dem Modell beibringen kann, die ihm zugeteilte Rechenzeit 'intelligent' zu nutzen", räumen die Autoren ein.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie von OpenAI zeigt, dass KI-Modelle robuster gegen Manipulationsversuche werden, wenn sie mehr Zeit zum "Nachdenken" bekommen. Dies gilt für verschiedene Arten von Angriffen wie Many-Shot-Angriffe, Soft-Token-Angriffe und menschliches Red-Teaming.
  • Die Forscher entdeckten aber auch Probleme: In manchen Fällen steigt die Erfolgsrate von Angriffen zunächst an, wenn mehr Rechenzeit zur Verfügung steht. Zudem identifizierten sie zwei neue Angriffsmethoden speziell für Reasoning-Modelle: den "Think Less"-Angriff zur Reduktion der Rechenzeit und das "Nerd Sniping", um Modelle in unproduktive Denkschleifen zu locken.
  • Insbesondere das kleinere Modell o1-mini war anfällig für "Think Less"-Angriffe, während sich das größere o1-preview als robuster erwies. Die Studie zeigt, dass mit neuen Modellen auch neue Angriffspunkte entstehen und weitere Forschung nötig ist, um Modellen beizubringen, zugeteilte Rechenzeit intelligent zu nutzen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!