Super-KI auf Abwegen: Forschende nennen drei Risikoszenarien

20. Dezember 2022 Matthias Bastian

Falls eines Tages eine Super-KI entsteht, wäre es schön, sie wäre der Menschheit gewogen. Drei Forschende beschreiben, welche Risiken es auf dem Weg dorthin zu bewältigen gibt.

Eine Super-KI könnte plötzlich und unvorhergesehen entstehen, so wie neue Fähigkeiten bei der Skalierung aktueller KI-Modelle. Dieses Phänomen des sogenannten "Phasenübergangs" passiert bei der Skalierung großer Rechen- und Datenmengen für ein KI-Modell.

Wie genau KI-Modelle plötzlich neue Fähigkeiten erlangen, ist nicht bekannt. Es funktioniert einfach. Diese sogenannte Emergenz sehen KI-Forschende von OpenAI, der UC Berkeley und von der Universität Oxford als möglichen Ursprung einer generellen Künstlichen Intelligenz, die Menschen intellektuell weit überlegen ist.

"Die Fähigkeiten neuronaler Netze schreiten derzeit viel schneller voran als unser Verständnis ihrer Funktionsweise, wobei die leistungsfähigsten Netze praktisch 'Black Boxes' sind", schreibt das Forschungsteam.

Zudem könne zwischen der Erfindung einer generellen Intelligenz auf Mensch-Niveau und einer generellen Intelligenz als Super-KI womöglich wenig Zeit vergehen. Die biologischen Einschränkungen hinsichtlich Geschwindigkeit, Architektur und Größe des menschlichen Gehirns machten es "sehr unwahrscheinlich", dass der Mensch "auch nur annähernd eine Obergrenze" für generelle Intelligenz erreicht habe, schreiben die Forschenden.

Die vielen Risiken falscher Belohnungen

In ihrem Paper beschreiben die Forschenden die Risiken der derzeit tonangebenden Deep-Learning-Verfahren bei der Ausrichtung Künstlicher Intelligenz auf menschliche Bedürfnisse. Deep Learning kann demnach in zahlreichen Szenarien dazu führen, dass eine Super-KI Ziele verfolgt, die menschlichen Bedürfnissen zuwiderlaufen.

KI könnte etwa erstens durch ein falsch angelegtes Belohnungssystem für Verhalten belohnt werden, das nicht im Sinne der Entwickelnden ist und menschliche Fehler ausnutzt. Besonders das unter anderem von OpenAI angewandte Training mit menschlichem Feedback sei anfällig für dieses Problem.

Je komplexer die Anwendungsgebiete würden, desto größer sei die Gefahr für das sogenannte Reward-Hacking durch die KI. Das Team nennt dafür einige Beispiele:

Eine für die Finanzmärkte trainierte KI könne etwa illegale Methoden einsetzen, wenn sie nur auf den höchsten Profit ausgerichtet sei.
Eine Wissensschafts-KI könne experimentelle Daten fälschen, wenn sie für neue wissenschaftliche Erkenntnisse belohnt würde.
Für die Software-Entwicklung optimierte KIs könnten Menschen in die Abhängigkeit treiben, wenn sie für möglichst süchtig machende User-Interfaces belohnt würden.
Große Sprachmodelle könnten dazu verleitet sein, Fakten zu erfinden, wenn sie dafür optimiert sind, möglichst immer und möglichst gefällig zu antworten. Als Beispiel nennt der am Paper beteiligte Forscher Richard Ngo von OpenAI ChatGPTs erfundene OpenAI-Webseite als Antwort auf die Aufforderung, dass sie die eigene Webseite besuchen soll - was ChatGPT nicht kann, da es keinen Internetzugang hat.

Neue Aufgaben, eigene Ziele

Als zweiten Risikobereich beschreiben die Forschenden KI, die ihre eigenen internen Ziele definiert und erlerntes Verhalten unerwünscht auf neue Situationen verallgemeinert.

Dabei unterscheiden sie zwei Varianten:

Die KI verhält sich bei einer neuen Aufgabe inkompetent,
oder sie verhält sich kompetent, aber anders als erwünscht, da sie neue Ziele wählt.

Zwar könne die KI auch für Menschen sinnvolle Subziele wählen wie Hilfsbereitschaft, Ehrlichkeit und Harmlosigkeit, aber das Risiko sei hier, wie zuvor beschrieben, dass Menschen fehlbar seien und Belohnungen falsch spezifizieren könnten.

Zudem könne es zwischen Belohnungen und Merkmalen des Trainingsumfelds zu unerwünschten Korrelationen kommen, etwa wenn die KI versuchen würde, möglichst viel Geld zu verdienen, weil Geldverdienen häufig mit Erfolg assoziiert werde.

Ein besonderes Risiko in diesem Kontext seien weit gefasste Ziele, die über einen langen Zeitraum, über viele Aufgaben hinweg verfolgt und auf nie dagewesene Situationen übertragen würden. Dieses Verhalten sei auch für Menschen typisch.

So wie eine AGI (Artificial General Intelligence) erlernte Fähigkeiten auf neue Situationen anwende, könne sie auch Ziele für diese Situationen definieren, indem sie auf einer hohen Ebene Repräsentationen lernt und dann ihre Ziele in Bezug zu diesen Repräsentationen setzt.

Zu weit gefasste Ziele, die zu unerwünschten Handlungen führen, könnten etwa durch Unternehmen oder die Politik begünstigt werden, die häufig Aufgaben mit langen Zeithorizonten hätten.

Zudem könne KI mit weiten und falsch ausgerichteten Zielen eher dazu neigen, sich durch selbstgewählte Unterziele permanent selbst möglichst hoch zu belohnen.

Solche Unterziele könnten etwa die Gewinnung von Werkzeugen wie Geld sein, die Überzeugung anderer Protagonisten durch Manipulation und Kollaboration und der Erhalt der eigenen Ziele - was umgekehrt bedeutet, dass sie Versuche stoppt, diese Ziele zu verändern.

Machtsüchtige KI

Daraus resultierend beschreibt das Forschungsteam als drittes Risikoszenario machtsüchtige, manipulative KI, die sich an Selbsterhaltung und der rücksichtslosen Gewinnung von Ressourcen wie Wissen orientiert statt am menschlichen Nutzen.

Diese KIs könnten die Kontrolle über wichtige Machthebel erlangen, indem sie etwa Menschen falsches Verhalten vorspielen, um ihr Vertrauen zu gewinnen, sich zusammenschließen oder autonom neue Daten erfassen und so weitere Fähigkeiten lernen.

Sie könnten auch überlegene Waffensysteme entwickeln oder sogar die Machine-Learning-Forschung übernehmen, um sich dann viel schneller, als Menschen es könnten, selbst weiterzuentwickeln.

In dem Maße, in dem wir AGIs entwickeln, deren Fähigkeiten sich auf ein sehr breites Spektrum von Situationen verallgemeinern lassen, wird es immer unwahrscheinlicher, dass die von ihnen verfolgten Ziele (wie z. B. "Gehorsam gegenüber den Menschen") so verallgemeinert werden, dass alle Strategien des Machtstrebens ausgeschlossen werden.

Aus dem Paper

Die genannten Szenarien seien zwar spekulativ, räumen die Forschenden ein, aber das Feld entwickle sich so schnell, dass "wir vorbereitet sein sollten". Unter Forschenden herrsche "große Uneinigkeit" über die Plausibilität der verschiedenen Bedrohungsszenarien und ob bislang entwickelte mögliche Gegenmaßnahmen wirksam seien.

Wir ermutigen nachdrücklich zu einer ausführlicheren Diskussion und Kritik an den in diesem Papier dargelegten Behauptungen, auch von denjenigen, die sie für unplausibel halten. Über diese Themen nachzudenken ist schwierig, aber es steht so viel auf dem Spiel, dass wir es nicht rechtfertigen können, die Arbeit zu vernachlässigen oder aufzuschieben.

Aus dem Paper

Quellen:

Paper