OpenAI überarbeitet Sicherheitsrahmen für Hochrisiko-KI-Fähigkeiten

16. April 2025

OpenAI

OpenAI hat sein Preparedness Framework überarbeitet, um Risiken durch fortgeschrittene KI-Modelle systematischer zu identifizieren und abzusichern.

OpenAIs Preparedness Team hatte Ende 2023 die erste Version des Preparedness Framework veröffentlicht. Das neue Rahmenwerk legt den nun Fokus auf Fähigkeiten, die potenziell schwerwiegende, neuartige und nicht rückgängig zu machende Schäden verursachen können. Um solche Risiken einheitlich zu bewerten, führt OpenAI fünf zentrale Kriterien ein: plausible, messbare, schwerwiegende, neue und sofortige bzw. irreversible Gefahren. Nur wenn alle Kriterien erfüllt sind, wird eine Fähigkeit als risikorelevant eingestuft.

Die Fähigkeiten werden künftig in zwei Hauptkategorien unterteilt: Tracked Categories und Research Categories. Erstere umfassen bekannte Hochrisikobereiche mit etablierten Schutzmaßnahmen, wie biologische und chemische Anwendungen, Cybersicherheit und KI-Selbstverbesserung. Die Research Categories hingegen benennen mögliche Gefahrenfelder, bei denen noch kein ausgereiftes Verständnis oder keine etablierten Prüfmethoden existieren – etwa autonome Replikation, Sandbagging oder die Unterwanderung von Schutzmechanismen. Für diese Bereiche entwickelt OpenAI derzeit neue Bedrohungsmodelle und Bewertungssysteme.

Zugleich definiert das Framework zwei Fähigkeitsstufen: High Capability und Critical Capability. Systeme mit hoher Fähigkeit müssen vor Einsatz abgesichert sein, kritische Systeme schon während der Entwicklung. Die interne Safety Advisory Group (SAG) bewertet, ob Schutzmaßnahmen ausreichen, und spricht Empfehlungen aus. Die endgültige Entscheidung über die Freigabe fällt das Management. Bei neuen Daten kann eine Neubewertung der Schutzmaßnahmen erzwungen werden.

Skalierbare Tests bei wachsender Modellfrequenz

Da KI-Modelle zunehmend ohne vollständige Neutrainings verbessert werden, setzt OpenAI auf skalierbare Prüfverfahren. Automatisierte Tests sollen mit der Entwicklungsgeschwindigkeit Schritt halten, werden aber durch vertiefte Analysen ergänzt. Zudem will OpenAI auf externe Entwicklungen reagieren können: Sollte ein anderer Anbieter ein Hochrisikomodell ohne vergleichbare Sicherheitsmaßnahmen veröffentlichen, behält sich OpenAI Anpassungen seiner Anforderungen vor – unter der Bedingung, dass das Gesamtrisiko nicht steigt.

Neben den bisherigen Capabilities Reports veröffentlicht OpenAI künftig auch Safeguards Reports, die Schutzmaßnahmen und deren Wirksamkeit dokumentieren. Beide Berichte folgen dem Prinzip einer mehrschichtigen Absicherung ("Defense in Depth") und bilden die Grundlage für Freigabeentscheidungen. Die Ergebnisse sollen wie bisher bei jeder Veröffentlichung eines neuen Modells öffentlich gemacht werden.

Die Veröffentlichugn des neuen Frameworks kommt nur wenige Tage nach Berichten, dass das Unternehmen seine Sicherheitsprüfungen seit dem Release von GPT-4 drastisch verkürzt hat. Laut Sicherheitschef Johannes Heidecke habe man durch Automatisierung eine gute Balance gefunden. Bislang gelten nur freiwillige Prüfstandards in den USA und Großbritannien. Mit dem EU-KI-Gesetz werden aber schon bald verpflichtende Risikoprüfungen für leistungsfähige Modelle eingeführt.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

OpenAI überarbeitet Sicherheitsrahmen für Hochrisiko-KI-Fähigkeiten

Skalierbare Tests bei wachsender Modellfrequenz

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.