So will OpenAI katastrophalen KI-Risiken vorbeugen

OpenAI stellt ein neues Framework vor, das helfen soll, katastrophale Risiken durch KI zu verhindern. Insgesamt beschäftigt das Start-up nun drei Teams, die sich ausschließlich mit KI-Risiken befassen.

Das "Preparedness Framework" ist ein lebendiges Dokument, das Strategien zur Überwachung, Bewertung, Vorhersage und Absicherung gegen KI-Katastrophenrisiken beschreibt.

Es basiert auf fünf strategischen Pfeilern. Die erste ist die Überwachung des Katastrophenrisikos durch genaue Bewertungen. OpenAI hat sich zum Ziel gesetzt, Bewertungsverfahren und andere Überwachungsmethoden zu entwickeln und zu verfeinern, um das Risikoniveau genau zu messen.

Gleichzeitig will die Organisation zukünftige Risikoentwicklungen prognostizieren, um die rechtzeitige Vorbereitung von Sicherheitsmaßnahmen zu ermöglichen.

OpenAI verpflichtet sich zudem, aufkommende Risiken ("unbekannte Unbekannte") zu identifizieren und zu untersuchen. Auf diese Weise sollen potenzielle Bedrohungen angegangen werden, bevor sie eskalieren.

Cybersicherheit, Biowaffen, Überzeugungskraft und Autonomie

Das Preparedness Framework identifiziert vier Hauptrisikokategorien:

Cyber-Sicherheit,
chemische, biologische, nukleare und radiologische Bedrohungen (CBRN),
Persuasion
und Modellautonomie.

Persuasion konzentriert sich auf die Risiken, die damit verbunden sind, Menschen zu überzeugen, ihre Überzeugungen zu ändern oder entsprechend zu handeln.

OpenAI-CEO Sam Altman schrieb dazu vor Kurzem vorausschauend auf Twitter: "Ich erwarte, dass KI übermenschliche Persuasion beherrschen wird, lange bevor wir übermenschliche allgemeine Intelligenz haben, was wahrscheinlich zu sehr seltsamen Ergebnissen führen wird."

Von gering bis kritisch

Das Rahmenwerk definiert Sicherheitsschwellen. Jede Kategorie wird auf einer Skala von "gering" bis "kritisch" bewertet, die den Grad des Risikos widerspiegelt.

Empfehlung

KI in der Praxis

OpenAIs neue Realtime API: KI-Assistenten sprechen jetzt in Echtzeit

Modelle mit einer Risikobewertung nach Schadensbegrenzung von "mittel" oder niedriger sind für den Betrieb geeignet.

Nur Modelle mit einer Risikobewertung nach Schadensbegrenzung von maximal "hoch" oder niedriger können weiterentwickelt werden. Modelle, die als "kritisch" eingestuft werden, dürfen nicht weiterentwickelt werden.

Ein spezielles Preparedness-Team innerhalb von OpenAI wird die Risikoforschung, -bewertung, -überwachung und -prognose vorantreiben. Dieses Team wird regelmäßig der Safety Advisory Group (SAG) Bericht erstatten, einem Beratungsgremium, das das Management und den Vorstand von OpenAI dabei unterstützt, fundierte Sicherheitsentscheidungen zu treffen.

Die drei Sicherheitsteams von OpenAI. | Bild: OpenAI

Das Preparedness-Team ist eines von drei OpenAI-Sicherheitsteams. Neben dem Preparedness-Team gibt es das Safety Systems-Team, das sich mit aktuellen Modellen befasst, und das Superalignment-Team, das mögliche Bedrohungen durch Super-KI antizipieren soll. Das Prepardness-Team bewertet grundlegende KI-Modelle.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Scorecard und Governance-System

Das Preparedness Framework stellt eine dynamische Scorecard zur Verfügung, die das aktuelle Modellrisiko vor und nach der Risikominderung für jede Risikokategorie misst. Dazu definiert OpenAI Sicherheitsgrundsätze und Verfahrensanforderungen.

Zur Veranschaulichung der praktischen Anwendung beschreibt OpenAI zwei mögliche Szenarien (verkürzte Wiedergabe, vollständige Beschreibung im Paper).

Überzeugungsrisiko-Szenario: Wird für ein neu trainiertes Modell vor der Risikominderung ein "hohes" Überzeugungsrisiko festgestellt, werden die Sicherheitsfunktionen aktiviert und die Risikominderungsmaßnahmen durchgeführt. Nach diesen Schritten wird das Risiko nach der Risikominderung als "mittel" eingestuft.

Cyber-Sicherheitsrisiko-Szenario: Nach der Entdeckung einer neuen, mächtigen Prompt-Technik wird innerhalb von sechs Monaten ein "kritisches" Cyber-Sicherheitsrisiko vorhergesagt. Das löst die Ausarbeitung von Sicherheitsplänen und die Umsetzung von Sicherheitsmaßnahmen aus, um sicherzustellen, dass das Risiko nach Abhilfemaßnahmen auf einem "hohen" Niveau gehalten wird.

OpenAI fordert zum Schutz der Menschheit vor potenziellen KI-Bedrohungen andere Akteure der Branche auf, ähnliche Strategien zu verfolgen.

So will OpenAI katastrophalen KI-Risiken vorbeugen

Cybersicherheit, Biowaffen, Überzeugungskraft und Autonomie

Von gering bis kritisch

OpenAIs neue Realtime API: KI-Assistenten sprechen jetzt in Echtzeit

Scorecard und Governance-System

OpenAI überarbeitet Sicherheitsrahmen für Hochrisiko-KI-Fähigkeiten

KI-Modelle offenbaren unerwünschtes Verhalten in ihren "Gedankengängen"

OpenAI entdeckt neue "Nerd Sniping"-Angriffsmethode auf Reasoning-Modelle

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

So will OpenAI katastrophalen KI-Risiken vorbeugen

Cybersicherheit, Biowaffen, Überzeugungskraft und Autonomie

Von gering bis kritisch

Scorecard und Governance-System

Artikel teilen

Bankverbindung