100 Fachleute fordern mehr Forschung zur Kontrolle von KI-Systemen

Ein neuer Konsensbericht aus Singapur legt offen, welche technischen Forschungsbereiche laut führenden KI-Wissenschaftlerinnen und -Wissenschaftlern nötig sind, um allgemeine KI-Systeme beherrschbar zu halten. Dabei geht es weniger um neue Modelle – und mehr um Kontrolle.

Über 100 Fachleute aus elf Ländern haben sich im Rahmen der „Singapore Conference on AI“ im April 2025 auf gemeinsame Prioritäten zur technischen Sicherheit von KI-Systemen verständigt. Das Ergebnis ist der nun veröffentlichte „Singapore Consensus on Global AI Safety Research Priorities“.

Der Bericht konzentriert sich ausschließlich auf sogenannte General Purpose AI (GPAI) – also Systeme, die eine breite Palette kognitiver Aufgaben ausführen können. Dazu zählen Sprachmodelle, multimodale Modelle und autonome KI-Agenten. Politische Fragestellungen bleiben außen vor.

Das Dokument gliedert das Feld der technischen KI-Sicherheitsforschung in drei Bereiche: Risikobewertung, vertrauenswürdige Systementwicklung und Kontrolle nach dem Deployment. Ziel ist es, ein „Trusted Ecosystem“ zu schaffen, das Innovation fördert, ohne gesellschaftliche Risiken zu ignorieren.

Risikobewertung als Ausgangspunkt

Im ersten Bereich geht es um Methoden zur Messung und Vorhersage von Risiken durch KI-Systeme. Dazu zählen standardisierte Audit-Techniken, Benchmarks für gefährliche Fähigkeiten, sowie Messmethoden zur Bewertung gesellschaftlicher Auswirkungen. Auch die Entwicklung einer „Metrologie für KI-Risiken“ wird als offenes Forschungsfeld genannt – also präzise, wiederholbare Messverfahren, um Risikoschwellen klar zu definieren.

Ein zentrales Problem sei die sogenannte „Evidence Dilemma“: Wird zu lange auf harte Beweise gewartet, könnten Risiken unkontrollierbar werden. Zu früh implementierte Gegenmaßnahmen hingegen könnten unnötig oder ineffektiv sein. Empfohlen werden deshalb prospektive Risikoanalysen, wie sie aus der Nuklearsicherheit und Luftfahrt bekannt sind, etwa Szenarioanalysen, probabilistische Risikobewertungen oder Bow-Tie-Analysen.

Weitere Forschung sei nötig, um gefährliche Fähigkeiten – etwa im Bereich Cyberangriffe oder biologische Waffen – frühzeitig zu erkennen. Dabei sollen auch sogenannte „Uplift Studies“ helfen, die untersuchen, ob KI-Systeme die Effektivität böswilliger Nutzer signifikant steigern.

Systeme sollen Sicherheit garantieren, nicht nur versprechen

Der zweite Schwerpunkt umfasst die Entwicklung vertrauenswürdiger, robuster und spezifikationsgetreuer KI-Systeme. Dabei geht es zum einen um die präzise Festlegung erwünschten Verhaltens (Specification), zum anderen um dessen technische Umsetzung (Design) und abschließend um die Verifikation, ob das System wie gewünscht arbeitet.

Besondere Herausforderungen bestehen laut Konsens bei der Spezifikation menschlicher Ziele: Schon einfache Fehlformulierungen können zu „Reward Hacking“, Täuschung oder unerwünschtem Machtstreben führen. Auch das Verhalten in Multi-Stakeholder-Szenarien oder unter widersprüchlichen Nutzerpräferenzen sei bislang schwer zuverlässig zu modellieren.

Empfehlung

KI und Gesellschaft

US-Denkfabrik warnt vor "umgekehrtem Brain Drain" in Chinas KI-Sektor

Auf Systemebene fordert der Bericht robuste Trainingsverfahren gegen Angriffe, bessere Methoden zum gezielten Editieren von Modellen („Model Editing“) sowie die Entwicklung agentenfreier, domänenspezifischer oder kapazitätsbegrenzter KI-Modelle, um gefährliche Verhaltensweisen strukturell zu verhindern.

Langfristiges Ziel sei, KI-Systeme mit garantierter Sicherheit zu bauen – etwa durch verifizierbare Programmsynthese oder formale Weltmodelle mit garantierten Umwelteinwirkungen. Solche Methoden stehen jedoch noch am Anfang.

Kontrolle nach der Auslieferung

Der dritte Bereich bezieht sich auf die Kontrolle von KI-Systemen nach ihrer Entwicklung. Dazu zählen klassische Monitoring- und Interventionsmechanismen wie Hardware-gestützte Überwachung, Off-Switches und Notfallprotokolle.

Ein besonderes Augenmerk liegt auf der Kontrolle von besonders leistungsfähigen Systemen, die versuchen könnten, Kontrollmechanismen aktiv zu unterlaufen. Hierfür werden Forschung zu „Scalable Oversight“ – etwa durch Debatten unter KI-Systemen oder „Nested Oversight“-Strukturen – sowie „Corrigibility“-Ansätze empfohlen, die Systeme korrigierbar und abschaltbar halten sollen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Außerdem wird gefordert, das gesamte KI-Ökosystem zu überwachen: etwa durch Nachverfolgung von Modellen, Wasserzeichen, Logging-Infrastrukturen und standardisierte Authentifizierung von KI-Agenten. So ließen sich etwa Deepfakes oder gefährliche Open-Source-Modelle besser identifizieren und zurückverfolgen.

Kooperation trotz Wettbewerb erwünscht

Ein zentrales Argument des Berichts ist, dass bestimmte Sicherheitsmaßnahmen im Eigeninteresse aller Akteure liegen – auch wenn sie im Wettbewerb stehen. Als Beispiel nennt der Bericht die Definition technischer Risikoschwellen: Wenn ein System etwa durch Tests zeigt, dass es bei Cyberangriffen hilft, könne dies ein Auslösekriterium für Gegenmaßnahmen sein. Solche Schwellenwerte könnten auch von konkurrierenden Unternehmen gemeinsam entwickelt werden.

Herausgeber des Berichts sind unter anderem Yoshua Bengio (MILA), Stuart Russell (UC Berkeley) und Max Tegmark (MIT). Die Liste der Mitwirkenden umfasst Personen aus Forschungseinrichtungen wie Tsinghua, Berkeley, MILA sowie Mitarbeitende von OpenAI und weiteren KI-Laboren.

100 Fachleute fordern mehr Forschung zur Kontrolle von KI-Systemen

Risikobewertung als Ausgangspunkt

Systeme sollen Sicherheit garantieren, nicht nur versprechen

US-Denkfabrik warnt vor "umgekehrtem Brain Drain" in Chinas KI-Sektor

Kontrolle nach der Auslieferung

Kooperation trotz Wettbewerb erwünscht

Studie warnt: Schleichende KI-Entwicklung könnte Menschheit entmachten

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

100 Fachleute fordern mehr Forschung zur Kontrolle von KI-Systemen

Risikobewertung als Ausgangspunkt

Systeme sollen Sicherheit garantieren, nicht nur versprechen

US-Denkfabrik warnt vor "umgekehrtem Brain Drain" in Chinas KI-Sektor

Kontrolle nach der Auslieferung

Kooperation trotz Wettbewerb erwünscht

Studie warnt: Schleichende KI-Entwicklung könnte Menschheit entmachten