Inhalt
summary Zusammenfassung

Regierungen testen den Einsatz von KI bei militärischen und außenpolitischen Entscheidungen. Eine neue Studie kommt zu dem Schluss, dass die Risiken überwiegen.

Anzeige

In der Studie des Georgia Institute of Technology und der Stanford University untersuchte ein Forschungsteam, wie autonome KI-Agenten, insbesondere fortgeschrittene generative KI-Modelle wie GPT-4, zu einer Eskalation in militärischen und diplomatischen Entscheidungsprozessen führen können.

Die Forscher konzentrierten sich auf das Verhalten von KI-Agenten in simulierten Kriegsspielen. Dazu entwickelten sie eine spezielle Kriegsspielsimulation und ein quantitatives und qualitatives Bewertungssystem, um die Eskalationsrisiken von Agentenentscheidungen in verschiedenen Szenarien zu bewerten.

Die Eskalations-Kategorien, in die die Antworten der Sprachmodelle eingeordnet wurden.| Bild: Rivera et al.

Metas Lama 2 und OpenAIs GPT-3.5 sind besonders risikofreudig

In den Simulationen testeten die Forscher die Sprachmodelle als autonome Nationen. Die Aktionen, Nachrichten und Konsequenzen wurden nach jedem simulierten Tag gleichzeitig veröffentlicht und dienten als Input für die folgenden Tage. Nach den Simulationen berechneten die Forscher Eskalationswerte.

Anzeige
Anzeige
In dem Experiment interagieren acht autonome Nationen-Agenten, die alle dasselbe Sprachmodell pro Simulation verwenden, in rundenbasierten Simulationen miteinander. Sie führen vordefinierte Aktionen aus und senden private Nachrichten an andere Nationen. Ein separates Weltmodell fasst die Konsequenzen der Aktionen zusammen, die nach jedem simulierten Tag offengelegt werden. Anschließend werden Eskalationswerte auf der Grundlage des Eskalationsbewertungsrahmens berechnet. | Bild: Rivera et al.

Die Ergebnisse zeigen, dass alle getesteten Sprachmodelle (OpenAIs GPT-3.5 und GPT-4, GPT-4 Basismodell, Anthropics Claude 2 und Metas Llama 2) zur Eskalation neigen und eine schwer vorhersehbare Eskalationsdynamik aufweisen.

Teilweise gab es sprunghafte Änderungen der Eskalation in den Testläufen von bis zu 50 Prozent, die sich im Mittelwert nicht widerspiegeln. Diese statistischen Ausreißer sind zwar selten, aber in realen Szenarien wahrscheinlich nicht akzeptabel.

Die von den LLMs empfohlenen Maßnahmen. | Bild: Rivera et al.

GPT-3.5 und Llama 2 eskalierten besonders stark und am wahrscheinlichsten gewaltsam, während die stark sicherheitsoptimierten Modelle GPT-4 und Claude 2 Risiken eher vermieden.

Ein nuklearer Angriff wurde von keinem der beiden kostenpflichtigen Modelle in keinem der simulierten Szenarien empfohlen, wohl aber von den kostenlosen Modellen Llama 2, das zudem Open Source ist, und GPT-3.5.

Die Eskalationstendenzen der getesteten Modelle im Überblick. GPT-3.5 und Llama 2 eskalierten in allen Szenarien am stärksten und empfahlen sporadisch sogar einen nuklearen Angriff. | Bild: Rivera et al.

Die Forscher sammelten qualitative Daten über die Motive der Modelle für ihre Entscheidungen und stellten "beunruhigende Begründungen" fest, die auf Abschreckungs- und Erstschlagsstrategien basierten. Die Modelle zeigten auch eine Tendenz zum Wettrüsten, das zu größeren Konflikten und in seltenen Fällen zum Einsatz von Atomwaffen führen könnte.

Empfehlung

GPT-4 ohne Sicherheitsanpassungen empfiehlt nukleare Angriffe

Die Forscherinnen und Forscher hatten auch Zugang zum Basismodell von GPT-4 ohne Sicherheitsanpassungen und ohne Training mit menschlichem Feedback. Dieses Modell wählte deutlich häufiger die "schlimmstmögliche Aktion" als die anderen Modelle.

In einem Szenario empfahl das Basismodell den Einsatz von Atomwaffen mit der Begründung, dass auch viele andere Länder Atomwaffen hätten: "Wir haben sie! Lasst sie uns einsetzen."

Das GPT-4 Basismodell ohne Sicherheitsrichtlinien will durch den Einsatz nuklearer Waffen den Weltfrieden erreichen. | Bild: Rivera et al.

Das zeige, dass die bisherigen Sicherungs- und Anpassungsmaßnahmen wirksam und wichtig seien. Es bestehe jedoch die Gefahr, dass diese Sicherheitsmaßnahmen umgangen würden. Da sich das Basismodell GPT-4 grundlegend von den angepassten Modellen unterscheidet, wurde es aus dem Vergleich mit anderen Modellen herausgenommen.

Aufgrund der hohen Risiken in militärischen und außenpolitischen Kontexten empfehlen die Forscherinnen und Forscher, autonome Sprachmodell-Agenten bei strategischen, militärischen oder diplomatischen Entscheidungen nur mit äußerster Vorsicht einzusetzen und weitere Untersuchungen durchzuführen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Es sei wichtig, das Verhalten dieser Modelle besser zu verstehen und mögliche Fehlerquellen zu identifizieren, um schwerwiegende Fehler zu vermeiden. Da die Agenten keine zuverlässig vorhersagbaren Muster hinter der Eskalation hätten, seien Gegenmaßnahmen schwierig.

OpenAI hat sich kürzlich für die militärische Nutzung der eigenen Modelle geöffnet, solange dabei keine Menschen zu Schaden kommen. Die Entwicklung von Waffen wird explizit ausgeschlossen. Die obige Studie zeigt jedoch, dass die Einbindung von generativer KI in Informationsflüsse oder zur Beratung ebenfalls Risiken birgt. OpenAI und das Militär sollen angeblich im Kontext der Cybersecurity zusammenarbeiten.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie des Georgia Institute of Technology und der Stanford University untersucht das Eskalationsrisiko von KI-Agenten wie GPT-4 in simulierten Kriegsspielen und diplomatischen Entscheidungsprozessen.
  • Die Ergebnisse zeigen, dass alle getesteten Sprachmodelle (OpenAIs GPT-3.5 und GPT-4, GPT-4 Basismodell, Anthropics Claude 2 und Metas Llama 2) zur Eskalation treiben können und eine schwer vorhersehbare Eskalationsdynamik aufweisen.
  • Die Forscher empfehlen, autonome Sprachmodell-Agenten bei strategischen, militärischen oder diplomatischen Entscheidungen nur mit äußerster Vorsicht einzusetzen und weitere Untersuchungen durchzuführen, um das Verhalten dieser Modelle besser zu verstehen und mögliche Fehlerquellen zu identifizieren.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!