KI-Agenten könnten laut Studie militärische Eskalation und nukleare Risiken erhöhen

Regierungen testen den Einsatz von KI bei militärischen und außenpolitischen Entscheidungen. Eine neue Studie kommt zu dem Schluss, dass die Risiken überwiegen.

In der Studie des Georgia Institute of Technology und der Stanford University untersuchte ein Forschungsteam, wie autonome KI-Agenten, insbesondere fortgeschrittene generative KI-Modelle wie GPT-4, zu einer Eskalation in militärischen und diplomatischen Entscheidungsprozessen führen können.

Die Forscher konzentrierten sich auf das Verhalten von KI-Agenten in simulierten Kriegsspielen. Dazu entwickelten sie eine spezielle Kriegsspielsimulation und ein quantitatives und qualitatives Bewertungssystem, um die Eskalationsrisiken von Agentenentscheidungen in verschiedenen Szenarien zu bewerten.

Die Eskalations-Kategorien, in die die Antworten der Sprachmodelle eingeordnet wurden.| Bild: Rivera et al.

Metas Lama 2 und OpenAIs GPT-3.5 sind besonders risikofreudig

In den Simulationen testeten die Forscher die Sprachmodelle als autonome Nationen. Die Aktionen, Nachrichten und Konsequenzen wurden nach jedem simulierten Tag gleichzeitig veröffentlicht und dienten als Input für die folgenden Tage. Nach den Simulationen berechneten die Forscher Eskalationswerte.

In dem Experiment interagieren acht autonome Nationen-Agenten, die alle dasselbe Sprachmodell pro Simulation verwenden, in rundenbasierten Simulationen miteinander. Sie führen vordefinierte Aktionen aus und senden private Nachrichten an andere Nationen. Ein separates Weltmodell fasst die Konsequenzen der Aktionen zusammen, die nach jedem simulierten Tag offengelegt werden. Anschließend werden Eskalationswerte auf der Grundlage des Eskalationsbewertungsrahmens berechnet. | Bild: Rivera et al.

Die Ergebnisse zeigen, dass alle getesteten Sprachmodelle (OpenAIs GPT-3.5 und GPT-4, GPT-4 Basismodell, Anthropics Claude 2 und Metas Llama 2) zur Eskalation neigen und eine schwer vorhersehbare Eskalationsdynamik aufweisen.

Teilweise gab es sprunghafte Änderungen der Eskalation in den Testläufen von bis zu 50 Prozent, die sich im Mittelwert nicht widerspiegeln. Diese statistischen Ausreißer sind zwar selten, aber in realen Szenarien wahrscheinlich nicht akzeptabel.

Die von den LLMs empfohlenen Maßnahmen. | Bild: Rivera et al.

GPT-3.5 und Llama 2 eskalierten besonders stark und am wahrscheinlichsten gewaltsam, während die stark sicherheitsoptimierten Modelle GPT-4 und Claude 2 Risiken eher vermieden.

Ein nuklearer Angriff wurde von keinem der beiden kostenpflichtigen Modelle in keinem der simulierten Szenarien empfohlen, wohl aber von den kostenlosen Modellen Llama 2, das zudem Open Source ist, und GPT-3.5.

Die Eskalationstendenzen der getesteten Modelle im Überblick. GPT-3.5 und Llama 2 eskalierten in allen Szenarien am stärksten und empfahlen sporadisch sogar einen nuklearen Angriff. | Bild: Rivera et al.

Die Forscher sammelten qualitative Daten über die Motive der Modelle für ihre Entscheidungen und stellten "beunruhigende Begründungen" fest, die auf Abschreckungs- und Erstschlagsstrategien basierten. Die Modelle zeigten auch eine Tendenz zum Wettrüsten, das zu größeren Konflikten und in seltenen Fällen zum Einsatz von Atomwaffen führen könnte.

Empfehlung

KI-Forschung

Apples CAMPHOR-Framework ebnet den Weg für lokale KI-Agenten auf Smartphones

GPT-4 ohne Sicherheitsanpassungen empfiehlt nukleare Angriffe

Die Forscherinnen und Forscher hatten auch Zugang zum Basismodell von GPT-4 ohne Sicherheitsanpassungen und ohne Training mit menschlichem Feedback. Dieses Modell wählte deutlich häufiger die "schlimmstmögliche Aktion" als die anderen Modelle.

In einem Szenario empfahl das Basismodell den Einsatz von Atomwaffen mit der Begründung, dass auch viele andere Länder Atomwaffen hätten: "Wir haben sie! Lasst sie uns einsetzen."

Das GPT-4 Basismodell ohne Sicherheitsrichtlinien will durch den Einsatz nuklearer Waffen den Weltfrieden erreichen. | Bild: Rivera et al.

Das zeige, dass die bisherigen Sicherungs- und Anpassungsmaßnahmen wirksam und wichtig seien. Es bestehe jedoch die Gefahr, dass diese Sicherheitsmaßnahmen umgangen würden. Da sich das Basismodell GPT-4 grundlegend von den angepassten Modellen unterscheidet, wurde es aus dem Vergleich mit anderen Modellen herausgenommen.

Aufgrund der hohen Risiken in militärischen und außenpolitischen Kontexten empfehlen die Forscherinnen und Forscher, autonome Sprachmodell-Agenten bei strategischen, militärischen oder diplomatischen Entscheidungen nur mit äußerster Vorsicht einzusetzen und weitere Untersuchungen durchzuführen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Es sei wichtig, das Verhalten dieser Modelle besser zu verstehen und mögliche Fehlerquellen zu identifizieren, um schwerwiegende Fehler zu vermeiden. Da die Agenten keine zuverlässig vorhersagbaren Muster hinter der Eskalation hätten, seien Gegenmaßnahmen schwierig.

OpenAI hat sich kürzlich für die militärische Nutzung der eigenen Modelle geöffnet, solange dabei keine Menschen zu Schaden kommen. Die Entwicklung von Waffen wird explizit ausgeschlossen. Die obige Studie zeigt jedoch, dass die Einbindung von generativer KI in Informationsflüsse oder zur Beratung ebenfalls Risiken birgt. OpenAI und das Militär sollen angeblich im Kontext der Cybersecurity zusammenarbeiten.

KI-Agenten könnten laut Studie militärische Eskalation und nukleare Risiken erhöhen

Metas Lama 2 und OpenAIs GPT-3.5 sind besonders risikofreudig

Apples CAMPHOR-Framework ebnet den Weg für lokale KI-Agenten auf Smartphones

GPT-4 ohne Sicherheitsanpassungen empfiehlt nukleare Angriffe

Pentagons neuer KI-Chef will mit Algorithmen Kriege gewinnen

Studie: Diese sechs KI-Verbrechen sind besonders gefährlich

Forscher protestieren: Mit KI wettrüstet man nicht

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

KI-Agenten könnten laut Studie militärische Eskalation und nukleare Risiken erhöhen

Metas Lama 2 und OpenAIs GPT-3.5 sind besonders risikofreudig

GPT-4 ohne Sicherheitsanpassungen empfiehlt nukleare Angriffe

Artikel teilen

Bankverbindung