OpenAI hat sein Preparedness Framework überarbeitet, um Risiken durch fortgeschrittene KI-Modelle systematischer zu identifizieren und abzusichern.
OpenAIs Preparedness Team hatte Ende 2023 die erste Version des Preparedness Framework veröffentlicht. Das neue Rahmenwerk legt den nun Fokus auf Fähigkeiten, die potenziell schwerwiegende, neuartige und nicht rückgängig zu machende Schäden verursachen können. Um solche Risiken einheitlich zu bewerten, führt OpenAI fünf zentrale Kriterien ein: plausible, messbare, schwerwiegende, neue und sofortige bzw. irreversible Gefahren. Nur wenn alle Kriterien erfüllt sind, wird eine Fähigkeit als risikorelevant eingestuft.
Die Fähigkeiten werden künftig in zwei Hauptkategorien unterteilt: Tracked Categories und Research Categories. Erstere umfassen bekannte Hochrisikobereiche mit etablierten Schutzmaßnahmen, wie biologische und chemische Anwendungen, Cybersicherheit und KI-Selbstverbesserung. Die Research Categories hingegen benennen mögliche Gefahrenfelder, bei denen noch kein ausgereiftes Verständnis oder keine etablierten Prüfmethoden existieren – etwa autonome Replikation, Sandbagging oder die Unterwanderung von Schutzmechanismen. Für diese Bereiche entwickelt OpenAI derzeit neue Bedrohungsmodelle und Bewertungssysteme.
Zugleich definiert das Framework zwei Fähigkeitsstufen: High Capability und Critical Capability. Systeme mit hoher Fähigkeit müssen vor Einsatz abgesichert sein, kritische Systeme schon während der Entwicklung. Die interne Safety Advisory Group (SAG) bewertet, ob Schutzmaßnahmen ausreichen, und spricht Empfehlungen aus. Die endgültige Entscheidung über die Freigabe fällt das Management. Bei neuen Daten kann eine Neubewertung der Schutzmaßnahmen erzwungen werden.
Skalierbare Tests bei wachsender Modellfrequenz
Da KI-Modelle zunehmend ohne vollständige Neutrainings verbessert werden, setzt OpenAI auf skalierbare Prüfverfahren. Automatisierte Tests sollen mit der Entwicklungsgeschwindigkeit Schritt halten, werden aber durch vertiefte Analysen ergänzt. Zudem will OpenAI auf externe Entwicklungen reagieren können: Sollte ein anderer Anbieter ein Hochrisikomodell ohne vergleichbare Sicherheitsmaßnahmen veröffentlichen, behält sich OpenAI Anpassungen seiner Anforderungen vor – unter der Bedingung, dass das Gesamtrisiko nicht steigt.
Neben den bisherigen Capabilities Reports veröffentlicht OpenAI künftig auch Safeguards Reports, die Schutzmaßnahmen und deren Wirksamkeit dokumentieren. Beide Berichte folgen dem Prinzip einer mehrschichtigen Absicherung ("Defense in Depth") und bilden die Grundlage für Freigabeentscheidungen. Die Ergebnisse sollen wie bisher bei jeder Veröffentlichung eines neuen Modells öffentlich gemacht werden.
Die Veröffentlichugn des neuen Frameworks kommt nur wenige Tage nach Berichten, dass das Unternehmen seine Sicherheitsprüfungen seit dem Release von GPT-4 drastisch verkürzt hat. Laut Sicherheitschef Johannes Heidecke habe man durch Automatisierung eine gute Balance gefunden. Bislang gelten nur freiwillige Prüfstandards in den USA und Großbritannien. Mit dem EU-KI-Gesetz werden aber schon bald verpflichtende Risikoprüfungen für leistungsfähige Modelle eingeführt.