KI-Forschung

Super-KI auf Abwegen: Forschende nennen drei Risikoszenarien

Matthias Bastian

Midjourney prompted by THE DECODER

Falls eines Tages eine Super-KI entsteht, wäre es schön, sie wäre der Menschheit gewogen. Drei Forschende beschreiben, welche Risiken es auf dem Weg dorthin zu bewältigen gibt.

Eine Super-KI könnte plötzlich und unvorhergesehen entstehen, so wie neue Fähigkeiten bei der Skalierung aktueller KI-Modelle. Dieses Phänomen des sogenannten "Phasenübergangs" passiert bei der Skalierung großer Rechen- und Datenmengen für ein KI-Modell.

Wie genau KI-Modelle plötzlich neue Fähigkeiten erlangen, ist nicht bekannt. Es funktioniert einfach. Diese sogenannte Emergenz sehen KI-Forschende von OpenAI, der UC Berkeley und von der Universität Oxford als möglichen Ursprung einer generellen Künstlichen Intelligenz, die Menschen intellektuell weit überlegen ist.

"Die Fähigkeiten neuronaler Netze schreiten derzeit viel schneller voran als unser Verständnis ihrer Funktionsweise, wobei die leistungsfähigsten Netze praktisch 'Black Boxes' sind", schreibt das Forschungsteam.

Zudem könne zwischen der Erfindung einer generellen Intelligenz auf Mensch-Niveau und einer generellen Intelligenz als Super-KI womöglich wenig Zeit vergehen. Die biologischen Einschränkungen hinsichtlich Geschwindigkeit, Architektur und Größe des menschlichen Gehirns machten es "sehr unwahrscheinlich", dass der Mensch "auch nur annähernd eine Obergrenze" für generelle Intelligenz erreicht habe, schreiben die Forschenden.

Die vielen Risiken falscher Belohnungen

In ihrem Paper beschreiben die Forschenden die Risiken der derzeit tonangebenden Deep-Learning-Verfahren bei der Ausrichtung Künstlicher Intelligenz auf menschliche Bedürfnisse. Deep Learning kann demnach in zahlreichen Szenarien dazu führen, dass eine Super-KI Ziele verfolgt, die menschlichen Bedürfnissen zuwiderlaufen.

KI könnte etwa erstens durch ein falsch angelegtes Belohnungssystem für Verhalten belohnt werden, das nicht im Sinne der Entwickelnden ist und menschliche Fehler ausnutzt. Besonders das unter anderem von OpenAI angewandte Training mit menschlichem Feedback sei anfällig für dieses Problem.

Je komplexer die Anwendungsgebiete würden, desto größer sei die Gefahr für das sogenannte Reward-Hacking durch die KI. Das Team nennt dafür einige Beispiele:

Neue Aufgaben, eigene Ziele

Als zweiten Risikobereich beschreiben die Forschenden KI, die ihre eigenen internen Ziele definiert und erlerntes Verhalten unerwünscht auf neue Situationen verallgemeinert.

Dabei unterscheiden sie zwei Varianten:

Zwar könne die KI auch für Menschen sinnvolle Subziele wählen wie Hilfsbereitschaft, Ehrlichkeit und Harmlosigkeit, aber das Risiko sei hier, wie zuvor beschrieben, dass Menschen fehlbar seien und Belohnungen falsch spezifizieren könnten.

Zudem könne es zwischen Belohnungen und Merkmalen des Trainingsumfelds zu unerwünschten Korrelationen kommen, etwa wenn die KI versuchen würde, möglichst viel Geld zu verdienen, weil Geldverdienen häufig mit Erfolg assoziiert werde.

Ein besonderes Risiko in diesem Kontext seien weit gefasste Ziele, die über einen langen Zeitraum, über viele Aufgaben hinweg verfolgt und auf nie dagewesene Situationen übertragen würden. Dieses Verhalten sei auch für Menschen typisch.

So wie eine AGI (Artificial General Intelligence) erlernte Fähigkeiten auf neue Situationen anwende, könne sie auch Ziele für diese Situationen definieren, indem sie auf einer hohen Ebene Repräsentationen lernt und dann ihre Ziele in Bezug zu diesen Repräsentationen setzt.

Zu weit gefasste Ziele, die zu unerwünschten Handlungen führen, könnten etwa durch Unternehmen oder die Politik begünstigt werden, die häufig Aufgaben mit langen Zeithorizonten hätten.

Zudem könne KI mit weiten und falsch ausgerichteten Zielen eher dazu neigen, sich durch selbstgewählte Unterziele permanent selbst möglichst hoch zu belohnen.

Solche Unterziele könnten etwa die Gewinnung von Werkzeugen wie Geld sein, die Überzeugung anderer Protagonisten durch Manipulation und Kollaboration und der Erhalt der eigenen Ziele - was umgekehrt bedeutet, dass sie Versuche stoppt, diese Ziele zu verändern.

Machtsüchtige KI

Daraus resultierend beschreibt das Forschungsteam als drittes Risikoszenario machtsüchtige, manipulative KI, die sich an Selbsterhaltung und der rücksichtslosen Gewinnung von Ressourcen wie Wissen orientiert statt am menschlichen Nutzen.

Diese KIs könnten die Kontrolle über wichtige Machthebel erlangen, indem sie etwa Menschen falsches Verhalten vorspielen, um ihr Vertrauen zu gewinnen, sich zusammenschließen oder autonom neue Daten erfassen und so weitere Fähigkeiten lernen.

Sie könnten auch überlegene Waffensysteme entwickeln oder sogar die Machine-Learning-Forschung übernehmen, um sich dann viel schneller, als Menschen es könnten, selbst weiterzuentwickeln.

In dem Maße, in dem wir AGIs entwickeln, deren Fähigkeiten sich auf ein sehr breites Spektrum von Situationen verallgemeinern lassen, wird es immer unwahrscheinlicher, dass die von ihnen verfolgten Ziele (wie z. B. "Gehorsam gegenüber den Menschen") so verallgemeinert werden, dass alle Strategien des Machtstrebens ausgeschlossen werden.

Aus dem Paper

Die genannten Szenarien seien zwar spekulativ, räumen die Forschenden ein, aber das Feld entwickle sich so schnell, dass "wir vorbereitet sein sollten". Unter Forschenden herrsche "große Uneinigkeit" über die Plausibilität der verschiedenen Bedrohungsszenarien und ob bislang entwickelte mögliche Gegenmaßnahmen wirksam seien.

Wir ermutigen nachdrücklich zu einer ausführlicheren Diskussion und Kritik an den in diesem Papier dargelegten Behauptungen, auch von denjenigen, die sie für unplausibel halten. Über diese Themen nachzudenken ist schwierig, aber es steht so viel auf dem Spiel, dass wir es nicht rechtfertigen können, die Arbeit zu vernachlässigen oder aufzuschieben.

Aus dem Paper

Quellen: