Anzeige
Skip to content

OpenAI entdeckt neue "Nerd Sniping"-Angriffsmethode auf Reasoning-Modelle

Image description
OpenAI

Eine neue Studie von OpenAI zeigt: KI-Modelle werden robuster gegen Manipulationsversuche, wenn sie mehr Zeit zum "Nachdenken" bekommen. Die Forscher entdeckten dabei auch neue Angriffsmethoden.

In der Studie wurden verschiedene Arten von Angriffen auf die OpenAI-Modelle o1-preview und o1-mini getestet, wie Many-Shot-Angriffe, Soft-Token-Angriffe und menschliches Red-Teaming. Bei allen zeigte sich: Je mehr Zeit die Modelle zum "Nachdenken" hatten, desto besser konnten sie den Manipulationsversuchen widerstehen.

"Wir sehen, dass über verschiedene Aufgaben hinweg eine Erhöhung der Inferenz-Rechenzeit die Wahrscheinlichkeit eines erfolgreichen Angriffs reduziert", schreiben die Autoren. Diese Verbesserung tritt ein, ohne dass das Modell speziell auf die Angriffe trainiert werden muss.

Neue Angriffsmethoden entdeckt

Die Forscher haben aber auch einige Probleme identifiziert: In einigen Fällen steigt die Erfolgsrate von Angriffen zunächst sogar an, wenn mehr Rechenzeit zur Verfügung gestellt wird. Das sei vor allem dann der Fall, wenn das Modell ein Minimum an Rechenzeit benötigt, um die vom Angreifer gewünschte Aufgabe überhaupt lösen zu können.

Anzeige
DEC_D_Incontent-1

Auch die Kontrolle der Rechenzeit ist nicht perfekt. Die Forscher identifizierten zwei neue Arten von Angriffen, die speziell auf Reasoning-Modelle abzielen: Den "Think Less"-Angriff, der versucht, die Rechenzeit des Modells zu reduzieren, und das "Nerd Sniping", bei dem das Modell in unproduktive Denkschleifen gelockt wird, um Ressourcen zu verschwenden.

Besonders problematisch: Diese Art von Angriff ist schwerer zu erkennen als andere Schwachstellen. Während ein ungewöhnlich niedriger Rechenaufwand leicht auffällt, könnte erhöhte Rechenzeit fälschlicherweise als Zeichen besonders sorgfältiger Analyse interpretiert werden.

"Wir haben für diese Studie noch nicht untersucht, wie man dem Modell beibringen kann, die ihm zugeteilte Rechenzeit 'intelligent' zu nutzen", räumen die Autoren ein.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: OpenAI (Paper)

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren