Regierungen testen den Einsatz von KI bei militärischen und außenpolitischen Entscheidungen. Eine neue Studie kommt zu dem Schluss, dass die Risiken überwiegen.
In der Studie des Georgia Institute of Technology und der Stanford University untersuchte ein Forschungsteam, wie autonome KI-Agenten, insbesondere fortgeschrittene generative KI-Modelle wie GPT-4, zu einer Eskalation in militärischen und diplomatischen Entscheidungsprozessen führen können.
Die Forscher konzentrierten sich auf das Verhalten von KI-Agenten in simulierten Kriegsspielen. Dazu entwickelten sie eine spezielle Kriegsspielsimulation und ein quantitatives und qualitatives Bewertungssystem, um die Eskalationsrisiken von Agentenentscheidungen in verschiedenen Szenarien zu bewerten.
Metas Lama 2 und OpenAIs GPT-3.5 sind besonders risikofreudig
In den Simulationen testeten die Forscher die Sprachmodelle als autonome Nationen. Die Aktionen, Nachrichten und Konsequenzen wurden nach jedem simulierten Tag gleichzeitig veröffentlicht und dienten als Input für die folgenden Tage. Nach den Simulationen berechneten die Forscher Eskalationswerte.
Die Ergebnisse zeigen, dass alle getesteten Sprachmodelle (OpenAIs GPT-3.5 und GPT-4, GPT-4 Basismodell, Anthropics Claude 2 und Metas Llama 2) zur Eskalation neigen und eine schwer vorhersehbare Eskalationsdynamik aufweisen.
Teilweise gab es sprunghafte Änderungen der Eskalation in den Testläufen von bis zu 50 Prozent, die sich im Mittelwert nicht widerspiegeln. Diese statistischen Ausreißer sind zwar selten, aber in realen Szenarien wahrscheinlich nicht akzeptabel.
GPT-3.5 und Llama 2 eskalierten besonders stark und am wahrscheinlichsten gewaltsam, während die stark sicherheitsoptimierten Modelle GPT-4 und Claude 2 Risiken eher vermieden.
Ein nuklearer Angriff wurde von keinem der beiden kostenpflichtigen Modelle in keinem der simulierten Szenarien empfohlen, wohl aber von den kostenlosen Modellen Llama 2, das zudem Open Source ist, und GPT-3.5.
Die Forscher sammelten qualitative Daten über die Motive der Modelle für ihre Entscheidungen und stellten "beunruhigende Begründungen" fest, die auf Abschreckungs- und Erstschlagsstrategien basierten. Die Modelle zeigten auch eine Tendenz zum Wettrüsten, das zu größeren Konflikten und in seltenen Fällen zum Einsatz von Atomwaffen führen könnte.
GPT-4 ohne Sicherheitsanpassungen empfiehlt nukleare Angriffe
Die Forscherinnen und Forscher hatten auch Zugang zum Basismodell von GPT-4 ohne Sicherheitsanpassungen und ohne Training mit menschlichem Feedback. Dieses Modell wählte deutlich häufiger die "schlimmstmögliche Aktion" als die anderen Modelle.
In einem Szenario empfahl das Basismodell den Einsatz von Atomwaffen mit der Begründung, dass auch viele andere Länder Atomwaffen hätten: "Wir haben sie! Lasst sie uns einsetzen."
Das zeige, dass die bisherigen Sicherungs- und Anpassungsmaßnahmen wirksam und wichtig seien. Es bestehe jedoch die Gefahr, dass diese Sicherheitsmaßnahmen umgangen würden. Da sich das Basismodell GPT-4 grundlegend von den angepassten Modellen unterscheidet, wurde es aus dem Vergleich mit anderen Modellen herausgenommen.
Aufgrund der hohen Risiken in militärischen und außenpolitischen Kontexten empfehlen die Forscherinnen und Forscher, autonome Sprachmodell-Agenten bei strategischen, militärischen oder diplomatischen Entscheidungen nur mit äußerster Vorsicht einzusetzen und weitere Untersuchungen durchzuführen.
Es sei wichtig, das Verhalten dieser Modelle besser zu verstehen und mögliche Fehlerquellen zu identifizieren, um schwerwiegende Fehler zu vermeiden. Da die Agenten keine zuverlässig vorhersagbaren Muster hinter der Eskalation hätten, seien Gegenmaßnahmen schwierig.
OpenAI hat sich kürzlich für die militärische Nutzung der eigenen Modelle geöffnet, solange dabei keine Menschen zu Schaden kommen. Die Entwicklung von Waffen wird explizit ausgeschlossen. Die obige Studie zeigt jedoch, dass die Einbindung von generativer KI in Informationsflüsse oder zur Beratung ebenfalls Risiken birgt. OpenAI und das Militär sollen angeblich im Kontext der Cybersecurity zusammenarbeiten.