Inhalt
summary Zusammenfassung

OpenAI hat sein Preparedness Framework überarbeitet, um Risiken durch fortgeschrittene KI-Modelle systematischer zu identifizieren und abzusichern.

Anzeige

OpenAIs Preparedness Team hatte Ende 2023 die erste Version des Preparedness Framework veröffentlicht. Das neue Rahmenwerk legt den nun Fokus auf Fähigkeiten, die potenziell schwerwiegende, neuartige und nicht rückgängig zu machende Schäden verursachen können. Um solche Risiken einheitlich zu bewerten, führt OpenAI fünf zentrale Kriterien ein: plausible, messbare, schwerwiegende, neue und sofortige bzw. irreversible Gefahren. Nur wenn alle Kriterien erfüllt sind, wird eine Fähigkeit als risikorelevant eingestuft.

Die Fähigkeiten werden künftig in zwei Hauptkategorien unterteilt: Tracked Categories und Research Categories. Erstere umfassen bekannte Hochrisikobereiche mit etablierten Schutzmaßnahmen, wie biologische und chemische Anwendungen, Cybersicherheit und KI-Selbstverbesserung. Die Research Categories hingegen benennen mögliche Gefahrenfelder, bei denen noch kein ausgereiftes Verständnis oder keine etablierten Prüfmethoden existieren – etwa autonome Replikation, Sandbagging oder die Unterwanderung von Schutzmechanismen. Für diese Bereiche entwickelt OpenAI derzeit neue Bedrohungsmodelle und Bewertungssysteme.

Zugleich definiert das Framework zwei Fähigkeitsstufen: High Capability und Critical Capability. Systeme mit hoher Fähigkeit müssen vor Einsatz abgesichert sein, kritische Systeme schon während der Entwicklung. Die interne Safety Advisory Group (SAG) bewertet, ob Schutzmaßnahmen ausreichen, und spricht Empfehlungen aus. Die endgültige Entscheidung über die Freigabe fällt das Management. Bei neuen Daten kann eine Neubewertung der Schutzmaßnahmen erzwungen werden.

Anzeige
Anzeige

Skalierbare Tests bei wachsender Modellfrequenz

Da KI-Modelle zunehmend ohne vollständige Neutrainings verbessert werden, setzt OpenAI auf skalierbare Prüfverfahren. Automatisierte Tests sollen mit der Entwicklungsgeschwindigkeit Schritt halten, werden aber durch vertiefte Analysen ergänzt. Zudem will OpenAI auf externe Entwicklungen reagieren können: Sollte ein anderer Anbieter ein Hochrisikomodell ohne vergleichbare Sicherheitsmaßnahmen veröffentlichen, behält sich OpenAI Anpassungen seiner Anforderungen vor – unter der Bedingung, dass das Gesamtrisiko nicht steigt.

Neben den bisherigen Capabilities Reports veröffentlicht OpenAI künftig auch Safeguards Reports, die Schutzmaßnahmen und deren Wirksamkeit dokumentieren. Beide Berichte folgen dem Prinzip einer mehrschichtigen Absicherung ("Defense in Depth") und bilden die Grundlage für Freigabeentscheidungen. Die Ergebnisse sollen wie bisher bei jeder Veröffentlichung eines neuen Modells öffentlich gemacht werden.

Die Veröffentlichugn des neuen Frameworks kommt nur wenige Tage nach Berichten, dass das Unternehmen seine Sicherheitsprüfungen seit dem Release von GPT-4 drastisch verkürzt hat. Laut Sicherheitschef Johannes Heidecke habe man durch Automatisierung eine gute Balance gefunden. Bislang gelten nur freiwillige Prüfstandards in den USA und Großbritannien. Mit dem EU-KI-Gesetz  werden aber schon bald verpflichtende Risikoprüfungen für leistungsfähige Modelle eingeführt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI hat sein Preparedness Framework überarbeitet, um gefährliche Fähigkeiten fortgeschrittener KI-Modelle systematischer zu erkennen und abzusichern. Dabei werden nur solche Fähigkeiten als risikorelevant eingestuft, die fünf Kriterien gleichzeitig erfüllen: plausibel, messbar, schwerwiegend, neuartig und irreversibel.
  • Das neue System unterscheidet zwischen bekannten Hochrisikobereichen mit etablierten Schutzmaßnahmen (Tracked Categories) und weniger verstandenen Gefahrenfeldern (Research Categories), für die OpenAI neue Bedrohungsmodelle und Bewertungssysteme entwickelt.
  • Zusätzlich setzt OpenAI auf skalierbare Tests und veröffentlicht künftig neben Capabilities Reports auch Safeguards Reports. Beide sollen dokumentieren, wie wirksam die Schutzmaßnahmen sind, und bilden die Grundlage für Freigabeentscheidungen bei neuen KI-Modellen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!