OpenAI stellt sechs Sicherheitsmaßnahmen vor, die die derzeitigen Sicherheitskontrollen ergänzen und zum Schutz "fortgeschrittener KI" beitragen sollen.
Laut OpenAI sind KI-Modelle das Ziel böswilliger Cyber-Akteure. Um die Vorteile von KI-Modellen nutzen zu können, müssen diese online verfügbar sein - sei es für Dienste wie ChatGPT oder für die Forschung. Dies mache sie angreifbar.
OpenAI geht es hier speziell um den Schutz der Modellgewichte, die das Ergebnis des kostspieligen KI-Trainings sind: "Modellgewichte sind Zahlenfolgen, die in einer Datei oder einer Reihe von Dateien gespeichert sind. KI-Entwickler möchten diese Dateien möglicherweise schützen, weil sie die Leistung und das Potenzial der Algorithmen, Trainingsdaten und Rechenressourcen verkörpern, die in sie eingeflossen sind."
Da es sich bei den Modellgewichten nur um Dateien handelt, die gestohlen werden könnten, müsse die KI-Computing-Infrastruktur bestmöglich geschützt werden. Zu diesem Zweck schlägt OpenAI sechs Sicherheitsmaßnahmen vor:
- Trusted Computing für KI-Beschleuniger durch neue Verschlüsselungs- und Hardware-Sicherheitstechnologien. Ziel ist es, dass GPU-Beschleuniger kryptographisch authentifiziert werden können und Modellgewichte verschlüsselt bleiben, bis sie auf die GPU geladen werden. Außerdem sollen Modellgewichte und Inferenzdaten nur von autorisierten GPUs entschlüsselt werden können.
- Garantien für Netzwerk- und Mandantenisolation, um Angriffsflächen und Datenexfiltration zu minimieren. KI-Systeme sollten in der Lage sein, getrennt von nicht vertrauenswürdigen Netzwerken offline zu arbeiten. Darüber hinaus sollte eine robuste Mandantenisolation sicherstellen, dass KI-Workloads nicht durch Schwachstellen des Infrastrukturanbieters kompromittiert werden können.
- Innovationen im Bereich der betrieblichen und physischen Sicherheit von Rechenzentren. Dazu gehören umfassende Zugangskontrollen, Überwachung rund um die Uhr, Verbote von Datenträgern und Anforderungen an die Datenvernichtung. Auch neue Methoden wie ferngesteuerte "Kill Switches" oder manipulationssichere Systeme werden erforscht.
- KI-spezifische Audit- und Compliance-Programme. Bestehende Sicherheitsstandards (SOC2, ISO/IEC etc.) sollen um KI-spezifische Anforderungen erweitert werden.
- KI für die Cyberabwehr, um Verteidiger zu unterstützen. KI kann in Sicherheits-Workflows integriert werden, um Sicherheitsingenieure zu entlasten. OpenAI nutzt eigene Modelle, um hochvolumige Sicherheitstelemetrie zu analysieren.
- Resilienz, Redundanz und kontinuierliche Sicherheitsforschung, um mit den Bedrohungen Schritt zu halten. Die Kontrollen sollten eine "defense-in-depth" bieten und zusammenwirken, um die Belastbarkeit auch dann zu gewährleisten, wenn einzelne Kontrollen ausfallen.
OpenAI arbeitet selbst an der Umsetzung dieser Maßnahmen, die es umfangreich im eigenen Blog darstellt. Die KI- und Sicherheits-Community soll sich an Forschung und Entwicklung beteiligen. Dazu stellt OpenAI ein Förderprogramm in Höhe von einer Million Dollar zur Verfügung. Zudem arbeitet OpenAI mit dem US-Militär zum Thema Cybersicherheit zusammen.
Wann kommt OpenAIs "fortgeschrittene KI"?
Möglicherweise geben die hier vorgestellten Regeln bereits einen Ausblick auf die Sicherheitsmaßnahmen für das nächste große Sprachmodell von OpenAI, GPT-5. CEO Sam Altman hat kürzlich bestätigt, dass noch in diesem Jahr ein neues, "erstaunliches" KI-Modell veröffentlicht werden soll. GPT-5 könnte einen ähnlich großen Leistungssprung darstellen wie GPT-3 zu GPT-4.
Neben den infrastrukturellen Sicherheitsrisiken gibt es auch solche auf der Anwendungsebene, hier insbesondere sogenannte Prompt Injections, die KI-Modelle dazu bringen können, unerwünschte Outputs zu generieren, etwa eine Anleitung zum Bau einer Bombe. Gegen diese Prompt Injections gibt es bisher keinen zwingenden Schutz. Sie sind seit GPT-3 bekannt.