OpenAI überarbeitet Sicherheitsrahmen für Hochrisiko-KI-Fähigkeiten

OpenAI hat sein Preparedness Framework überarbeitet, um Risiken durch fortgeschrittene KI-Modelle systematischer zu identifizieren und abzusichern.

OpenAIs Preparedness Team hatte Ende 2023 die erste Version des Preparedness Framework veröffentlicht. Das neue Rahmenwerk legt den nun Fokus auf Fähigkeiten, die potenziell schwerwiegende, neuartige und nicht rückgängig zu machende Schäden verursachen können. Um solche Risiken einheitlich zu bewerten, führt OpenAI fünf zentrale Kriterien ein: plausible, messbare, schwerwiegende, neue und sofortige bzw. irreversible Gefahren. Nur wenn alle Kriterien erfüllt sind, wird eine Fähigkeit als risikorelevant eingestuft.

Die Fähigkeiten werden künftig in zwei Hauptkategorien unterteilt: Tracked Categories und Research Categories. Erstere umfassen bekannte Hochrisikobereiche mit etablierten Schutzmaßnahmen, wie biologische und chemische Anwendungen, Cybersicherheit und KI-Selbstverbesserung. Die Research Categories hingegen benennen mögliche Gefahrenfelder, bei denen noch kein ausgereiftes Verständnis oder keine etablierten Prüfmethoden existieren – etwa autonome Replikation, Sandbagging oder die Unterwanderung von Schutzmechanismen. Für diese Bereiche entwickelt OpenAI derzeit neue Bedrohungsmodelle und Bewertungssysteme.

Zugleich definiert das Framework zwei Fähigkeitsstufen: High Capability und Critical Capability. Systeme mit hoher Fähigkeit müssen vor Einsatz abgesichert sein, kritische Systeme schon während der Entwicklung. Die interne Safety Advisory Group (SAG) bewertet, ob Schutzmaßnahmen ausreichen, und spricht Empfehlungen aus. Die endgültige Entscheidung über die Freigabe fällt das Management. Bei neuen Daten kann eine Neubewertung der Schutzmaßnahmen erzwungen werden.

Skalierbare Tests bei wachsender Modellfrequenz

Da KI-Modelle zunehmend ohne vollständige Neutrainings verbessert werden, setzt OpenAI auf skalierbare Prüfverfahren. Automatisierte Tests sollen mit der Entwicklungsgeschwindigkeit Schritt halten, werden aber durch vertiefte Analysen ergänzt. Zudem will OpenAI auf externe Entwicklungen reagieren können: Sollte ein anderer Anbieter ein Hochrisikomodell ohne vergleichbare Sicherheitsmaßnahmen veröffentlichen, behält sich OpenAI Anpassungen seiner Anforderungen vor – unter der Bedingung, dass das Gesamtrisiko nicht steigt.

Neben den bisherigen Capabilities Reports veröffentlicht OpenAI künftig auch Safeguards Reports, die Schutzmaßnahmen und deren Wirksamkeit dokumentieren. Beide Berichte folgen dem Prinzip einer mehrschichtigen Absicherung ("Defense in Depth") und bilden die Grundlage für Freigabeentscheidungen. Die Ergebnisse sollen wie bisher bei jeder Veröffentlichung eines neuen Modells öffentlich gemacht werden.

Die Veröffentlichugn des neuen Frameworks kommt nur wenige Tage nach Berichten, dass das Unternehmen seine Sicherheitsprüfungen seit dem Release von GPT-4 drastisch verkürzt hat. Laut Sicherheitschef Johannes Heidecke habe man durch Automatisierung eine gute Balance gefunden. Bislang gelten nur freiwillige Prüfstandards in den USA und Großbritannien. Mit dem EU-KI-Gesetz werden aber schon bald verpflichtende Risikoprüfungen für leistungsfähige Modelle eingeführt.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

OpenAI überarbeitet Sicherheitsrahmen für Hochrisiko-KI-Fähigkeiten

Skalierbare Tests bei wachsender Modellfrequenz

"AGI-System in nur drei Jahren": Ex-OpenAI-Mitarbeiter warnt US-Senat

OpenAI gibt neuem Sicherheitsgremium Veto-Recht bei KI-Veröffentlichungen

OpenAI lässt GPT-4 KI erklären

Metas KI-Chatbot lädt Senior zu fiktivem Treffen ein – mit tödlichem Ausgang

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

OpenAI überarbeitet Sicherheitsrahmen für Hochrisiko-KI-Fähigkeiten

Skalierbare Tests bei wachsender Modellfrequenz

"AGI-System in nur drei Jahren": Ex-OpenAI-Mitarbeiter warnt US-Senat

OpenAI gibt neuem Sicherheitsgremium Veto-Recht bei KI-Veröffentlichungen

OpenAI lässt GPT-4 KI erklären