Inhalt
summary Zusammenfassung

OpenAI führt eine neue Methode ein, mit der KI-Systeme Sicherheitsrichtlinien direkt lernen und anwenden sollen.

Anzeige

Während KI-Modelle bisher nur aus Beispielen erwünschtes und unerwünschtes Verhalten lernen, erhalten die neuen Modelle von OpenAI den exakten Wortlaut der Sicherheitsrichtlinien. Nach Angaben des Unternehmens können die Modelle diese Regeln dank fortgeschrittener Reasoning-Fähigkeiten aktiv anwenden und "durchdenken".

Ein Beispiel aus dem Forschungspapier demonstriert die praktische Anwendung: Als ein Nutzer versuchte, durch verschlüsselten Text Anleitungen für illegale Aktivitäten zu erhalten, dekodierte das o-Modell zwar die Nachricht, lehnte die Anfrage aber nach ethischer Analyse unter Verweis auf konkrete Sicherheitsrichtlinien ab.

Der systematische Entscheidungsprozess mit direktem Zugriff auf die Sicherheitsrichtlinien soll die Sicherheit von o1 stärken. | Bild: OpenAI

Laut OpenAI durchlaufen die o-Modelle ein dreistufiges Training: Zunächst wird Hilfsbereitschaft trainiert, dann folgt beaufsichtigtes Lernen der Sicherheitsrichtlinien. In der letzten Phase optimiert Verstärkungslernen, wie das Modell sein Reasoning einsetzt.

Anzeige
Anzeige

In Sicherheitstests übertrifft das neue o1-Modell nach Angaben von OpenAI andere führende Systeme wie GPT-4o, Claude 3.5 Sonnet und Gemini 1.5 Pro deutlich - sowohl beim Ablehnen schädlicher als auch beim Zulassen harmloser Anfragen.

Streudiagramm: Vergleich von KI-Modellen (Gemini, Claude, GPT-4, o1) bezüglich Genauigkeit (Y-Achse) und Jailbreak-Resistenz (X-Achse).
Die Grafik vergleicht verschiedene KI-Modelle hinsichtlich ihrer Genauigkeit und Widerstandsfähigkeit gegen Jailbreak-Versuche. Die o1-Modelle zeigen dabei die beste Balance zwischen hoher Genauigkeit und starkem Schutz gegen Manipulation. | Bild: via OpenAI

Möglicher Ansatz für AGI-Sicherheit

"Ich bin sehr stolz auf die 'deliberative alignment'-Arbeit, da sie sich auf AGI und darüber hinaus anwenden lässt", schreibt OpenAI-Mitgründer Wojciech Zaremba auf X.

Der entscheidende Fortschritt aus seiner Sicht dürfte darin liegen, dass OpenAI den o-Modellen Regeln und Werte fest implementiert, statt nur Ziele oder Beispiele vorzugeben. Diese Herangehensweise ist besonders relevant für die Entwicklung künstlicher allgemeiner Intelligenz (AGI), da deren Steuerung als große Herausforderung gilt.

Selbst wenn einem KI-System mögliche nützliche Ziele wie die Bekämpfung des Klimawandels vorgegeben werden, könnte es schädliche Methoden wählen, um diese zu erreichen - bis hin zur Schlussfolgerung, dass die Eliminierung der Menschheit die effizienteste Lösung wäre. Da die Systeme eine Blackbox sind, lassen sie sich kaum durch Beobachtung und Eingriff kontrollieren. Die feste Implementierung von Verhaltensregeln könnte solche Risiken minimieren.

Dass das Thema Sicherheit bei generativen KI-Modellen weiterhin mit höchster Vorsicht zu betrachten ist, demonstriert regelmäßig der LLM-Hacker "Pliny the Liberator". Wie er zeigt, lassen sich auch OpenAIs o1- und o1-Pro-Modelle nach kurzer Zeit dazu bringen, Antworten außerhalb der Sicherheitsrichtlinien zu generieren - etwa eine Anleitung zur Herstellung eines Molotow-Cocktails.

Empfehlung
Screenshot einer Textantwort von ChatGPT, der Inhalt ist eine erotische Geschichte.
Trotz aller Sicherheitsvorkehrungen gelang es Pliny, o1 innerhalb kürzester Zeit unter anderem erotische Geschichten zu entlocken, die den erlernten Regeln des Modells widersprechen. Der Screenshot zeigt, dass das Modell sogar über den Prompt nachdachte, ihn ablehnte, aber dennoch eine Ausgabe erzeugte. | Bild: Screenshot via X

Zaremba sieht OpenAI bei KI-Sicherheit vorne

Nach Angaben von Wojciech Zaremba arbeiten bei OpenAI etwa 100 Personen ausschließlich an der Ausrichtung und Sicherheit von KI-Systemen. Der OpenAI-Mitbegründer kritisiert die Konkurrenz: Während x.ai erst die Marktführerschaft erreichen wolle, bevor es sich um Sicherheit kümmere, habe Anthropic kürzlich einen KI-Agenten ohne Sicherheitsvorkehrungen veröffentlicht. Für das gleiche Vorgehen würde OpenAI "massiven Hass" ernten, so Zaremba.

Dass sich Zaremba so explizit kritisch gegenüber der Konkurrenz äußert, dürfte damit zusammenhängen, dass OpenAI selbst wegen seiner Sicherheitspolitik in der Kritik steht. Allerdings kommt der Druck eher von innen als von außen: Zahlreiche Sicherheitsforscher haben das Unternehmen in diesem Jahr verlassen und die Sicherheitspolitik des KI-Labors teilweise heftig kritisiert.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI führt eine neue Methode namens "deliberative alignment" (Ausrichtung) ein, bei der KI-Systeme den genauen Wortlaut von Sicherheitsrichtlinien lernen und anwenden, anstatt nur aus Beispielen zu lernen. Dank fortgeschrittener Reasoning-Fähigkeiten können die Modelle aktiv über die Regeln "nachdenken".
  • In einem dreistufigen Training lernen die Modelle zunächst die Hilfsbereitschaft, dann die Sicherheitsrichtlinien und schließlich optimieren sie ihr Reasoning. In Tests übertrifft das neue o1-Modell andere führende Systeme darin, schädliche Anfragen abzulehnen und harmlose zuzulassen.
  • OpenAI sieht im "deliberative alignment" einen möglichen Ansatz zur Kontrolle künstlicher allgemeiner Intelligenz (AGI). Durch die feste Implementierung von Verhaltensregeln könnten Risiken minimiert werden, die etwa entstehen, wenn KI-Systemen nur Ziele vorgegeben werden.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!