Inhalt
summary Zusammenfassung

Ein neuer Konsensbericht aus Singapur legt offen, welche technischen Forschungsbereiche laut führenden KI-Wissenschaftlerinnen und -Wissenschaftlern nötig sind, um allgemeine KI-Systeme beherrschbar zu halten. Dabei geht es weniger um neue Modelle – und mehr um Kontrolle.

Anzeige

Über 100 Fachleute aus elf Ländern haben sich im Rahmen der „Singapore Conference on AI“ im April 2025 auf gemeinsame Prioritäten zur technischen Sicherheit von KI-Systemen verständigt. Das Ergebnis ist der nun veröffentlichte „Singapore Consensus on Global AI Safety Research Priorities“.

Der Bericht konzentriert sich ausschließlich auf sogenannte General Purpose AI (GPAI) – also Systeme, die eine breite Palette kognitiver Aufgaben ausführen können. Dazu zählen Sprachmodelle, multimodale Modelle und autonome KI-Agenten. Politische Fragestellungen bleiben außen vor.

Das Dokument gliedert das Feld der technischen KI-Sicherheitsforschung in drei Bereiche: Risikobewertung, vertrauenswürdige Systementwicklung und Kontrolle nach dem Deployment. Ziel ist es, ein „Trusted Ecosystem“ zu schaffen, das Innovation fördert, ohne gesellschaftliche Risiken zu ignorieren.

Anzeige
Anzeige

Risikobewertung als Ausgangspunkt

Im ersten Bereich geht es um Methoden zur Messung und Vorhersage von Risiken durch KI-Systeme. Dazu zählen standardisierte Audit-Techniken, Benchmarks für gefährliche Fähigkeiten, sowie Messmethoden zur Bewertung gesellschaftlicher Auswirkungen. Auch die Entwicklung einer „Metrologie für KI-Risiken“ wird als offenes Forschungsfeld genannt – also präzise, wiederholbare Messverfahren, um Risikoschwellen klar zu definieren.

Ein zentrales Problem sei die sogenannte „Evidence Dilemma“: Wird zu lange auf harte Beweise gewartet, könnten Risiken unkontrollierbar werden. Zu früh implementierte Gegenmaßnahmen hingegen könnten unnötig oder ineffektiv sein. Empfohlen werden deshalb prospektive Risikoanalysen, wie sie aus der Nuklearsicherheit und Luftfahrt bekannt sind, etwa Szenarioanalysen, probabilistische Risikobewertungen oder Bow-Tie-Analysen.

Weitere Forschung sei nötig, um gefährliche Fähigkeiten – etwa im Bereich Cyberangriffe oder biologische Waffen – frühzeitig zu erkennen. Dabei sollen auch sogenannte „Uplift Studies“ helfen, die untersuchen, ob KI-Systeme die Effektivität böswilliger Nutzer signifikant steigern.

Systeme sollen Sicherheit garantieren, nicht nur versprechen

Der zweite Schwerpunkt umfasst die Entwicklung vertrauenswürdiger, robuster und spezifikationsgetreuer KI-Systeme. Dabei geht es zum einen um die präzise Festlegung erwünschten Verhaltens (Specification), zum anderen um dessen technische Umsetzung (Design) und abschließend um die Verifikation, ob das System wie gewünscht arbeitet.

Besondere Herausforderungen bestehen laut Konsens bei der Spezifikation menschlicher Ziele: Schon einfache Fehlformulierungen können zu „Reward Hacking“, Täuschung oder unerwünschtem Machtstreben führen. Auch das Verhalten in Multi-Stakeholder-Szenarien oder unter widersprüchlichen Nutzerpräferenzen sei bislang schwer zuverlässig zu modellieren.

Empfehlung

Auf Systemebene fordert der Bericht robuste Trainingsverfahren gegen Angriffe, bessere Methoden zum gezielten Editieren von Modellen („Model Editing“) sowie die Entwicklung agentenfreier, domänenspezifischer oder kapazitätsbegrenzter KI-Modelle, um gefährliche Verhaltensweisen strukturell zu verhindern.

Langfristiges Ziel sei, KI-Systeme mit garantierter Sicherheit zu bauen – etwa durch verifizierbare Programmsynthese oder formale Weltmodelle mit garantierten Umwelteinwirkungen. Solche Methoden stehen jedoch noch am Anfang.

Kontrolle nach der Auslieferung

Der dritte Bereich bezieht sich auf die Kontrolle von KI-Systemen nach ihrer Entwicklung. Dazu zählen klassische Monitoring- und Interventionsmechanismen wie Hardware-gestützte Überwachung, Off-Switches und Notfallprotokolle.

Ein besonderes Augenmerk liegt auf der Kontrolle von besonders leistungsfähigen Systemen, die versuchen könnten, Kontrollmechanismen aktiv zu unterlaufen. Hierfür werden Forschung zu „Scalable Oversight“ – etwa durch Debatten unter KI-Systemen oder „Nested Oversight“-Strukturen – sowie „Corrigibility“-Ansätze empfohlen, die Systeme korrigierbar und abschaltbar halten sollen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Außerdem wird gefordert, das gesamte KI-Ökosystem zu überwachen: etwa durch Nachverfolgung von Modellen, Wasserzeichen, Logging-Infrastrukturen und standardisierte Authentifizierung von KI-Agenten. So ließen sich etwa Deepfakes oder gefährliche Open-Source-Modelle besser identifizieren und zurückverfolgen.

Kooperation trotz Wettbewerb erwünscht

Ein zentrales Argument des Berichts ist, dass bestimmte Sicherheitsmaßnahmen im Eigeninteresse aller Akteure liegen – auch wenn sie im Wettbewerb stehen. Als Beispiel nennt der Bericht die Definition technischer Risikoschwellen: Wenn ein System etwa durch Tests zeigt, dass es bei Cyberangriffen hilft, könne dies ein Auslösekriterium für Gegenmaßnahmen sein. Solche Schwellenwerte könnten auch von konkurrierenden Unternehmen gemeinsam entwickelt werden.

Herausgeber des Berichts sind unter anderem Yoshua Bengio (MILA), Stuart Russell (UC Berkeley) und Max Tegmark (MIT). Die Liste der Mitwirkenden umfasst Personen aus Forschungseinrichtungen wie Tsinghua, Berkeley, MILA sowie Mitarbeitende von OpenAI und weiteren KI-Laboren.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Der „Singapore Consensus on Global AI Safety Research Priorities“ legt erstmals gemeinsame technische Forschungsfelder für die Sicherheit von General Purpose AI fest, auf die sich über 100 KI-Expertinnen und -Experten aus elf Ländern geeinigt haben.
  • Der Bericht nennt als zentrale Aufgaben die präzise Risikobewertung (einschließlich prospektiver Analysen und Messverfahren), die Entwicklung robuster und spezifikationsgetreuer KI-Systeme sowie die Kontrolle und Überwachung nach der Auslieferung – etwa durch Kontrollmechanismen, Modell-Tracking und Authentifizierungsstandards.
  • Die Fachleute betonen, dass technische Sicherheitsmaßnahmen wie klar definierte Risikoschwellen und gemeinsame Standards im Eigeninteresse aller Akteure liegen und fordern verstärkte Kooperation zwischen Unternehmen und Forschungseinrichtungen, unabhängig vom Wettbewerb.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!