Ein neuer Konsensbericht aus Singapur legt offen, welche technischen Forschungsbereiche laut führenden KI-Wissenschaftlerinnen und -Wissenschaftlern nötig sind, um allgemeine KI-Systeme beherrschbar zu halten. Dabei geht es weniger um neue Modelle – und mehr um Kontrolle.
Über 100 Fachleute aus elf Ländern haben sich im Rahmen der „Singapore Conference on AI“ im April 2025 auf gemeinsame Prioritäten zur technischen Sicherheit von KI-Systemen verständigt. Das Ergebnis ist der nun veröffentlichte „Singapore Consensus on Global AI Safety Research Priorities“.
Der Bericht konzentriert sich ausschließlich auf sogenannte General Purpose AI (GPAI) – also Systeme, die eine breite Palette kognitiver Aufgaben ausführen können. Dazu zählen Sprachmodelle, multimodale Modelle und autonome KI-Agenten. Politische Fragestellungen bleiben außen vor.
Das Dokument gliedert das Feld der technischen KI-Sicherheitsforschung in drei Bereiche: Risikobewertung, vertrauenswürdige Systementwicklung und Kontrolle nach dem Deployment. Ziel ist es, ein „Trusted Ecosystem“ zu schaffen, das Innovation fördert, ohne gesellschaftliche Risiken zu ignorieren.
Risikobewertung als Ausgangspunkt
Im ersten Bereich geht es um Methoden zur Messung und Vorhersage von Risiken durch KI-Systeme. Dazu zählen standardisierte Audit-Techniken, Benchmarks für gefährliche Fähigkeiten, sowie Messmethoden zur Bewertung gesellschaftlicher Auswirkungen. Auch die Entwicklung einer „Metrologie für KI-Risiken“ wird als offenes Forschungsfeld genannt – also präzise, wiederholbare Messverfahren, um Risikoschwellen klar zu definieren.
Ein zentrales Problem sei die sogenannte „Evidence Dilemma“: Wird zu lange auf harte Beweise gewartet, könnten Risiken unkontrollierbar werden. Zu früh implementierte Gegenmaßnahmen hingegen könnten unnötig oder ineffektiv sein. Empfohlen werden deshalb prospektive Risikoanalysen, wie sie aus der Nuklearsicherheit und Luftfahrt bekannt sind, etwa Szenarioanalysen, probabilistische Risikobewertungen oder Bow-Tie-Analysen.
Weitere Forschung sei nötig, um gefährliche Fähigkeiten – etwa im Bereich Cyberangriffe oder biologische Waffen – frühzeitig zu erkennen. Dabei sollen auch sogenannte „Uplift Studies“ helfen, die untersuchen, ob KI-Systeme die Effektivität böswilliger Nutzer signifikant steigern.
Systeme sollen Sicherheit garantieren, nicht nur versprechen
Der zweite Schwerpunkt umfasst die Entwicklung vertrauenswürdiger, robuster und spezifikationsgetreuer KI-Systeme. Dabei geht es zum einen um die präzise Festlegung erwünschten Verhaltens (Specification), zum anderen um dessen technische Umsetzung (Design) und abschließend um die Verifikation, ob das System wie gewünscht arbeitet.
Besondere Herausforderungen bestehen laut Konsens bei der Spezifikation menschlicher Ziele: Schon einfache Fehlformulierungen können zu „Reward Hacking“, Täuschung oder unerwünschtem Machtstreben führen. Auch das Verhalten in Multi-Stakeholder-Szenarien oder unter widersprüchlichen Nutzerpräferenzen sei bislang schwer zuverlässig zu modellieren.
Auf Systemebene fordert der Bericht robuste Trainingsverfahren gegen Angriffe, bessere Methoden zum gezielten Editieren von Modellen („Model Editing“) sowie die Entwicklung agentenfreier, domänenspezifischer oder kapazitätsbegrenzter KI-Modelle, um gefährliche Verhaltensweisen strukturell zu verhindern.
Langfristiges Ziel sei, KI-Systeme mit garantierter Sicherheit zu bauen – etwa durch verifizierbare Programmsynthese oder formale Weltmodelle mit garantierten Umwelteinwirkungen. Solche Methoden stehen jedoch noch am Anfang.
Kontrolle nach der Auslieferung
Der dritte Bereich bezieht sich auf die Kontrolle von KI-Systemen nach ihrer Entwicklung. Dazu zählen klassische Monitoring- und Interventionsmechanismen wie Hardware-gestützte Überwachung, Off-Switches und Notfallprotokolle.
Ein besonderes Augenmerk liegt auf der Kontrolle von besonders leistungsfähigen Systemen, die versuchen könnten, Kontrollmechanismen aktiv zu unterlaufen. Hierfür werden Forschung zu „Scalable Oversight“ – etwa durch Debatten unter KI-Systemen oder „Nested Oversight“-Strukturen – sowie „Corrigibility“-Ansätze empfohlen, die Systeme korrigierbar und abschaltbar halten sollen.
Außerdem wird gefordert, das gesamte KI-Ökosystem zu überwachen: etwa durch Nachverfolgung von Modellen, Wasserzeichen, Logging-Infrastrukturen und standardisierte Authentifizierung von KI-Agenten. So ließen sich etwa Deepfakes oder gefährliche Open-Source-Modelle besser identifizieren und zurückverfolgen.
Kooperation trotz Wettbewerb erwünscht
Ein zentrales Argument des Berichts ist, dass bestimmte Sicherheitsmaßnahmen im Eigeninteresse aller Akteure liegen – auch wenn sie im Wettbewerb stehen. Als Beispiel nennt der Bericht die Definition technischer Risikoschwellen: Wenn ein System etwa durch Tests zeigt, dass es bei Cyberangriffen hilft, könne dies ein Auslösekriterium für Gegenmaßnahmen sein. Solche Schwellenwerte könnten auch von konkurrierenden Unternehmen gemeinsam entwickelt werden.
Herausgeber des Berichts sind unter anderem Yoshua Bengio (MILA), Stuart Russell (UC Berkeley) und Max Tegmark (MIT). Die Liste der Mitwirkenden umfasst Personen aus Forschungseinrichtungen wie Tsinghua, Berkeley, MILA sowie Mitarbeitende von OpenAI und weiteren KI-Laboren.