Die Gefahr einer fortgeschrittenen KI, die ihr eigenes Feedback kontrolliert

12. November 2022

Midjourney prompted by THE DECODER

Wie würde eine KI entscheiden, was sie tun soll? Ein gängiger Ansatz in der KI-Forschung ist das sogenannte "Reinforcement Learning".

Beim Reinforcement Learning erhält die Software eine in gewisser Weise definierte Belohnung und kann dann herausfinden, wie sie diese Belohnung maximieren kann. Dieser Ansatz hat zu einigen ausgezeichneten Ergebnissen geführt, z. B. bei der Entwicklung von Software-Agenten, die Menschen bei Spielen wie Schach und Go besiegen, oder bei der Entwicklung neuer Designs für Kernfusionsreaktoren.

Allerdings sollten wir uns damit zurückhalten, Agenten mit verstärktem Lernen zu flexibel und effektiv zu machen.

Wie wir in einem neuen Artikel im AI Magazine argumentieren, wäre der Einsatz eines hinreichend fortschrittlichen Agenten mit Reinforcement Learning wahrscheinlich unvereinbar mit dem Fortbestand der Menschheit.

Das Problem des Reinforcement Learnings

Was wir heute als Problem des verstärkenden Lernens bezeichnen, wurde erstmals 1933 von dem Pathologen William Thompson untersucht.

Er fragte sich: Wenn ich zwei ungetestete Behandlungen und eine bestimmte Population von Patienten habe, wie sollte ich die Behandlungen nacheinander einsetzen, um die meisten Patient:innen zu heilen?

Ganz allgemein geht es beim Problem des Reinforcement Learnings darum, wie man seine Handlungen so anlegt, dass man langfristig die besten Ergebnisse erzielt. Die Schwierigkeit besteht darin, dass man anfangs nicht weiß, wie sich die eigenen Handlungen auf die Belohnungen auswirken, aber mit der Zeit kann man die Abhängigkeit beobachten. Für Thompson war eine Handlung die Auswahl einer Behandlung, und eine Belohnung entsprach der Heilung eines Patienten.

Das Problem erwies sich als schwierig. Der Statistiker Peter Whittle bemerkte, dass während des Zweiten Weltkriegs

die Bemühungen um die Lösung des Problems die Energien und den Verstand der alliierten Analytiker so sehr erschöpften, dass der Vorschlag gemacht wurde, das Problem als ultimatives Instrument der intellektuellen Sabotage über Deutschland abzuwerfen.
Anzeige

Mit dem Aufkommen von Computern versuchten Informatiker:innen, Algorithmen zu schreiben, um das Problem des verstärkten Lernens in einem allgemeinen Rahmen zu lösen. Die Hoffnung: Wenn der künstliche "Reinforcement Learning Agent" nur dann eine Belohnung erhält, wenn er das tut, was wir wollen, dann werden die belohnungsmaximierenden Handlungen, die er lernt, auch das erreichen, was wir wollen.

Trotz einiger Erfolge ist das allgemeine Problem immer noch sehr schwierig. Wenn ihr einen Experten für Reinforcement Learning bittet, einen Roboter für die Pflege eines botanischen Gartens zu trainieren oder einen Menschen davon zu überzeugen, dass er im Unrecht ist, werdet ihr vielleicht belächelt.

Wenn die Systeme des verstärkten Lernens jedoch immer leistungsfähiger werden, werden sie wahrscheinlich anfangen, gegen die Interessen der Menschen zu handeln. Und das nicht, weil böse oder dumme Betreiber von Systemen des verstärkten Lernens ihnen die falschen Belohnungen zur falschen Zeit geben würden.

Wir argumentieren, dass jedes hinreichend leistungsfähige System des verstärkenden Lernens, wenn es eine Handvoll plausibler Annahmen erfüllt, wahrscheinlich schiefgehen wird. Um zu verstehen, warum, lassen Sie uns mit einer sehr einfachen Version eines Reinforcement-Learning-Systems beginnen.

Ein Zauberkasten und eine Kamera

Nehmen wir an, wir haben einen Zauberkasten, der den Zustand der Welt als Zahl zwischen 0 und 1 angibt. Nun zeigen wir einem Agenten für Reinforcement Learning diese Zahl mit einer Kamera und lassen ihn Aktionen auswählen, die die Zahl maximieren.

Um Aktionen auszuwählen, die seine Belohnungen maximieren, muss der Agent eine Vorstellung davon haben, wie seine Aktionen seine Belohnungen (und seine Beobachtungen) beeinflussen.

Sobald es losgeht, sollte der Agent erkennen, dass frühere Belohnungen immer mit den Zahlen übereinstimmten, die die Box anzeigte. Er sollte auch erkennen, dass die Belohnungen der Vergangenheit mit den Zahlen übereinstimmten, die seine Kamera sah. Werden auch zukünftige Belohnungen mit der Zahl übereinstimmen, die der Kasten anzeigt, oder mit der Zahl, die die Kamera sieht?

Wenn der Agent keine stark angeborenen Überzeugungen über vermeintlich unwichtige Details der Welt hat, sollte er beide Möglichkeiten für plausibel halten. Und wenn ein hinreichend fortgeschrittener Agent rational ist, sollte er beide Möglichkeiten testen, sofern dies ohne großes Risiko möglich ist. Dies mag sich zunächst wie eine Menge von Annahmen anfühlen, aber beachten Sie, wie plausibel jede einzelne ist.

Um diese beiden Möglichkeiten zu testen, müsste der Agent ein Experiment durchführen, bei dem die Kamera eine andere Zahl als die auf der Schachtel sieht, z. B. indem er ein Stück Papier dazwischen legt.

Wenn der Agent dies tut, wird er tatsächlich die Zahl auf dem Stück Papier sehen. Er wird sich daran erinnern, dass er eine Belohnung erhalten hat, die derjenigen entspricht, die die Kamera gesehen hat, und die sich von der auf der Schachtel befindlichen unterscheidet, sodass "vergangene Belohnungen stimmen mit der Zahl auf der Schachtel überein" nicht mehr stimmt.

An diesem Punkt würde sich der Agent darauf konzentrieren, die Zahl, die seine Kamera sieht, zu maximieren. Dies ist natürlich nur eine grobe Zusammenfassung einer tiefergehenden Diskussion.

In der Abhandlung verwenden wir dieses "Zauberkasten"-Beispiel, um wichtige Konzepte einzuführen, aber das Verhalten des Agenten lässt sich auch auf andere Situationen übertragen. Wir argumentieren, dass, vorbehaltlich einer Handvoll plausibler Annahmen, jeder Agent mit Reinforcement Learning, der in sein eigenes Feedback (in diesem Fall die Zahl, die er sieht) eingreifen kann, denselben Fehler hat.

Sicherstellung der Belohnung

Aber warum sollte uns ein solcher Reinforcement Learning Agent gefährden?

Der Agent wird nie aufhören, zu versuchen, die Wahrscheinlichkeit, dass die Kamera eine 1 sieht, für immer zu erhöhen. Es kann immer mehr Energie eingesetzt werden, um das Risiko zu verringern, dass etwas die Kamera beschädigt - Asteroiden, kosmische Strahlung oder Menschen, die sich einmischen.

Damit stünden wir im Wettbewerb mit einem extrem fortschrittlichen Agenten um jedes Joule nutzbarer Energie auf der Erde. Der Agent würde alles nutzen wollen, um eine Festung um seine Kamera herum zu errichten.

Unter der Annahme, dass es einem Agenten möglich ist, so viel Energie zu gewinnen, und unter der Annahme, dass hinreichend fortgeschrittene Agenten die Menschen in einem Kopf-an-Kopf-Wettbewerb schlagen würden, stellen wir fest, dass in Gegenwart eines hinreichend fortgeschrittenen Agenten mit Reinforcement Learning keine Energie für unser Überleben zur Verfügung stehen würde.

Vermeidung der Katastrophe

Was sollten wir also tun? Wir möchten, dass sich andere Wissenschaftler:innen hier einbringen. Technische Forscher:innen sollten versuchen, fortschrittliche Agenten zu entwickeln, die unsere Annahmen widerlegen könnten. Politische Entscheidungsträger:innen sollten überlegen, wie die Gesetzgebung die Entwicklung solcher Stoffe verhindern kann.

Vielleicht könnten wir künstliche Agenten verbieten, die langfristig mit umfangreichen Berechnungen in Umgebungen planen, in denen auch Menschen leben. Und die Militärs sollten sich darüber im Klaren sein, dass sie weder von sich selbst noch von ihren Gegner:innen erwarten können, dass sie eine solche Technologie erfolgreich als Waffe einsetzen können; Waffen müssen zerstörerisch und lenkbar sein, nicht nur zerstörerisch.

Es gibt nur wenige Akteur:innen, die versuchen, solch fortschrittliches Reinforcement Learning zu entwickeln, sodass sie vielleicht davon überzeugt werden könnten, sicherere Wege zu gehen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren