OpenAI behauptet, einen Sicherheitsansatz für AGI gefunden zu haben

OpenAI führt eine neue Methode ein, mit der KI-Systeme Sicherheitsrichtlinien direkt lernen und anwenden sollen.

Während KI-Modelle bisher nur aus Beispielen erwünschtes und unerwünschtes Verhalten lernen, erhalten die neuen Modelle von OpenAI den exakten Wortlaut der Sicherheitsrichtlinien. Nach Angaben des Unternehmens können die Modelle diese Regeln dank fortgeschrittener Reasoning-Fähigkeiten aktiv anwenden und "durchdenken".

Ein Beispiel aus dem Forschungspapier demonstriert die praktische Anwendung: Als ein Nutzer versuchte, durch verschlüsselten Text Anleitungen für illegale Aktivitäten zu erhalten, dekodierte das o-Modell zwar die Nachricht, lehnte die Anfrage aber nach ethischer Analyse unter Verweis auf konkrete Sicherheitsrichtlinien ab.

Der systematische Entscheidungsprozess mit direktem Zugriff auf die Sicherheitsrichtlinien soll die Sicherheit von o1 stärken. | Bild: OpenAI

Laut OpenAI durchlaufen die o-Modelle ein dreistufiges Training: Zunächst wird Hilfsbereitschaft trainiert, dann folgt beaufsichtigtes Lernen der Sicherheitsrichtlinien. In der letzten Phase optimiert Verstärkungslernen, wie das Modell sein Reasoning einsetzt.

In Sicherheitstests übertrifft das neue o1-Modell nach Angaben von OpenAI andere führende Systeme wie GPT-4o, Claude 3.5 Sonnet und Gemini 1.5 Pro deutlich - sowohl beim Ablehnen schädlicher als auch beim Zulassen harmloser Anfragen.

Streudiagramm: Vergleich von KI-Modellen (Gemini, Claude, GPT-4, o1) bezüglich Genauigkeit (Y-Achse) und Jailbreak-Resistenz (X-Achse). — Die Grafik vergleicht verschiedene KI-Modelle hinsichtlich ihrer Genauigkeit und Widerstandsfähigkeit gegen Jailbreak-Versuche. Die o1-Modelle zeigen dabei die beste Balance zwischen hoher Genauigkeit und starkem Schutz gegen Manipulation. | Bild: via OpenAI

Möglicher Ansatz für AGI-Sicherheit

"Ich bin sehr stolz auf die 'deliberative alignment'-Arbeit, da sie sich auf AGI und darüber hinaus anwenden lässt", schreibt OpenAI-Mitgründer Wojciech Zaremba auf X.

Der entscheidende Fortschritt aus seiner Sicht dürfte darin liegen, dass OpenAI den o-Modellen Regeln und Werte fest implementiert, statt nur Ziele oder Beispiele vorzugeben. Diese Herangehensweise ist besonders relevant für die Entwicklung künstlicher allgemeiner Intelligenz (AGI), da deren Steuerung als große Herausforderung gilt.

Selbst wenn einem KI-System mögliche nützliche Ziele wie die Bekämpfung des Klimawandels vorgegeben werden, könnte es schädliche Methoden wählen, um diese zu erreichen - bis hin zur Schlussfolgerung, dass die Eliminierung der Menschheit die effizienteste Lösung wäre. Da die Systeme eine Blackbox sind, lassen sie sich kaum durch Beobachtung und Eingriff kontrollieren. Die feste Implementierung von Verhaltensregeln könnte solche Risiken minimieren.

Dass das Thema Sicherheit bei generativen KI-Modellen weiterhin mit höchster Vorsicht zu betrachten ist, demonstriert regelmäßig der LLM-Hacker "Pliny the Liberator". Wie er zeigt, lassen sich auch OpenAIs o1- und o1-Pro-Modelle nach kurzer Zeit dazu bringen, Antworten außerhalb der Sicherheitsrichtlinien zu generieren - etwa eine Anleitung zur Herstellung eines Molotow-Cocktails.

Empfehlung

KI-Forschung

Studie: OpenAIs o1 übertrifft Sprachmodelle deutlich, bleibt aber fehleranfällig

Screenshot einer Textantwort von ChatGPT, der Inhalt ist eine erotische Geschichte. — Trotz aller Sicherheitsvorkehrungen gelang es Pliny, o1 innerhalb kürzester Zeit unter anderem erotische Geschichten zu entlocken, die den erlernten Regeln des Modells widersprechen. Der Screenshot zeigt, dass das Modell sogar über den Prompt nachdachte, ihn ablehnte, aber dennoch eine Ausgabe erzeugte. | Bild: Screenshot via X

Zaremba sieht OpenAI bei KI-Sicherheit vorne

Nach Angaben von Wojciech Zaremba arbeiten bei OpenAI etwa 100 Personen ausschließlich an der Ausrichtung und Sicherheit von KI-Systemen. Der OpenAI-Mitbegründer kritisiert die Konkurrenz: Während x.ai erst die Marktführerschaft erreichen wolle, bevor es sich um Sicherheit kümmere, habe Anthropic kürzlich einen KI-Agenten ohne Sicherheitsvorkehrungen veröffentlicht. Für das gleiche Vorgehen würde OpenAI "massiven Hass" ernten, so Zaremba.

Dass sich Zaremba so explizit kritisch gegenüber der Konkurrenz äußert, dürfte damit zusammenhängen, dass OpenAI selbst wegen seiner Sicherheitspolitik in der Kritik steht. Allerdings kommt der Druck eher von innen als von außen: Zahlreiche Sicherheitsforscher haben das Unternehmen in diesem Jahr verlassen und die Sicherheitspolitik des KI-Labors teilweise heftig kritisiert.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

OpenAI behauptet, einen Sicherheitsansatz für AGI gefunden zu haben

Möglicher Ansatz für AGI-Sicherheit

Studie: OpenAIs o1 übertrifft Sprachmodelle deutlich, bleibt aber fehleranfällig

Zaremba sieht OpenAI bei KI-Sicherheit vorne

OpenAI-KI gewinnt Gold bei Informatik-Olympiade

KI-Kritiker Gary Marcus: GPT-5 ist "überfällig, überhyped und unterwältigend"

Nvidia-Forschende plädieren für mehr kleine Modelle in KI-Agenten

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

OpenAI behauptet, einen Sicherheitsansatz für AGI gefunden zu haben

Möglicher Ansatz für AGI-Sicherheit

Zaremba sieht OpenAI bei KI-Sicherheit vorne

Artikel teilen

Bankverbindung