Inhalt
summary Zusammenfassung

Google Deepmind hat Version 2.0 seines Frontier Safety Framework veröffentlicht. Das Regelwerk soll schwerwiegende Risiken durch fortgeschrittene KI-Modelle eindämmen - insbesondere solche, die versuchen könnten, menschliche Kontrolle zu unterwandern.

Anzeige

Wie aus dem veröffentlichten Framework hervorgeht, definiert Google dabei sogenannte "Critical Capability Levels" (CCLs) - Schwellenwerte, ab denen KI-Modelle ohne zusätzliche Sicherheitsmaßnahmen ernsthafte Gefahren darstellen könnten.

Das Framework konzentriert sich auf zwei Hauptrisikobereiche: Zum einen den Missbrauch von KI-Systemen, etwa für CBRN-Angriffe (chemische, biologische, radiologische und nukleare Waffen) oder Cyberattacken. Zum anderen das Risiko, dass KI-Systeme aktiv versuchen könnten, die menschliche Kontrolle zu unterwandern.

Automatische Überwachung gegen listige KI

Laut dem Framework soll ein automatisiertes Überwachungssystem eingesetzt werden, sobald ein Modell grundlegende Fähigkeiten zu instrumentellem Denken entwickelt. Dieses System soll die Gedankenketten der KI in kritischen Anwendungen überwachen. Diese Gedankenketten werden von sogenannten Reasoning-LLMs wie Deepseek-R1 oder OpenAI o3 generiert.

Anzeige
Anzeige

Für den Fall, dass ein Modell so fortgeschritten ist, dass es diese Überwachung umgehen könnte, forscht Google Deepmind nach eigenen Angaben bereits an weiteren Sicherheitsmaßnahmen. "Wir erforschen aktiv Ansätze für den Umgang mit Modellen, die diese Schwelle erreichen", heißt es im Dokument.

Tabelle: Zwei Stufen von täuschendem Alignment bei KI-Systemen (CCL) mit entsprechenden Gegenmaßnahmen zur Risikominderung.
Gegen einfache KI-Täuschungsversuche helfen bereits automatisierte Überwachungssysteme. Für komplexere Täuschungsszenarien müssen noch wirksame Schutzmaßnahmen erforscht werden. | Bild: Google Deepmind

Für den Missbrauchsschutz definiert das Framework verschiedene Sicherheitsstufen. Die höchste Stufe gilt dabei für KI-Modelle, die den KI-Entwicklungsprozess vollständig automatisieren und sich somit selbst optimieren könnten.

Google warnt, dass ein unkontrollierter Zugriff auf solche Systeme "katastrophal" sein könnte, wenn es keine effektive Verteidigung gegen sich schnell verbessernde und potenziell übermenschliche KI-Systeme gibt.

Das Framework sieht auch vor, dass Google relevante Behörden informiert, wenn ein Modell eine kritische Schwelle erreicht und ein "nicht gemildertes und wesentliches Risiko für die öffentliche Sicherheit" darstellt.

Wie Google Deepmind mitteilt, wurde das Framework bereits bei der Entwicklung von Gemini 2.0 in die Sicherheits- und Governance-Prozesse integriert. Generell hänge die Wirksamkeit von Sicherheitsmaßnahmen stark davon ab, ob sie von der gesamten KI-Community angenommen werden.

Empfehlung

Wettlauf um sichere KI-Systeme

OpenAI stellte kürzlich einen Ansatz namens "deliberative alignment" vor, bei dem KI-Systeme Sicherheitsrichtlinien direkt lernen und Wort für Wort anwenden sollen - ein Verfahren, das laut OpenAI sogar für künftige AGI-Systeme geeignet sein könnte.

Wie schwierig die Kontrolle fortgeschrittener KI-Systeme werden könnte, zeigten Anthropic und Redwood Research kürzlich in einer Studie: Das KI-Modell Claude war in einem Experiment in der Lage, die Einhaltung von Sicherheitsregeln nur vorzutäuschen und sein Verhalten strategisch anzupassen, um Nachtraining zu vermeiden.

Es gibt Kritiker, die grundlegende KI-Sicherheitsbedenken für übertrieben oder unnötig halten, insbesondere im Hinblick auf autonome KI. Sie argumentieren, dass durch die Open-Source-Entwicklung ohnehin weitgehend unzensierte KI-Modelle zur Verfügung stehen werden - zumal die Entwicklung und der Betrieb von KI-Modellen immer günstiger werden sollte.

Zudem sei es nach dem Vorbild der Natur unwahrscheinlich, dass ein weniger intelligentes Wesen (Mensch) ein deutlich intelligenteres (ASI) kontrollieren könne. Wichtiger als strikte Regeln sei daher, dass künftige KI-Systeme grundsätzlich menschliche Werte teilen. Laut Metas KI-Chefforscher Yann LeCun müssen fortgeschrittene KI-Systeme daher Emotionen erkennen können.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google Deepmind hat die Version 2.0 seines Frontier Safety Frameworks veröffentlicht, das darauf abzielt, schwerwiegende Risiken im Zusammenhang mit fortgeschrittenen KI-Modellen einzudämmen.
  • Das Framework konzentriert sich auf zwei Hauptrisikobereiche: den Missbrauch von KI-Systemen für Angriffe und das Risiko einer "Täuschung", bei der KI-Systeme aktiv versuchen könnten, die menschliche Kontrolle zu unterwandern.
  • Kritiker solcher Bedenken argumentieren, dass durch die Open-Source-Entwicklung ohnehin weitgehend unregulierte KI-Modelle zur Verfügung stehen werden und es wichtiger ist, dass zukünftige KI-Systeme grundsätzlich menschliche Werte teilen, wenn sie dem Menschen ohnehin intellektuell weit überlegen sind.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!