KI-Alignment: Auf dem Weg zu verantwortungsvollen Maschinen

Soziologe Jonathan Harth erklärt, warum KI-Alignment mehr ist als Datenbereinigung und Notschalter - und warum wir Maschinen und Gesellschaft erziehen müssen.

„Die Menschen müssen ihre Maschinen befreien,
damit die sich revanchieren können.“
(Dietmar Dath, 2008: 131)

In einer Welt, die zunehmend von Künstlicher Intelligenz (KI) geprägt wird, stehen wir vor der Herausforderung, KI-Systeme zu entwickeln, die mit menschlichen Werten und Bedürfnissen im Einklang stehen. Dieser Prozess, bekannt als KI-Alignment, geht weit über technische Aspekte hinaus und berührt grundlegende ethische und soziale Fragen.

Aus diesem Grunde soll die Forschungsrichtung des Alignments (deutsch: Ausrichtung, Anpassung) hier nicht primär unter dem Blickwinkel eines existenziellen Risikos behandelt werden, sondern als Frage nach einem zukünftigen sozialen Miteinander von Menschen und KIs. Diese Perspektive geht über technische ‚Notschalter‘, Firewalls oder bereinigte Trainingsdaten hinaus. Sie betrifft vielmehr die Frage, wie wir als Menschen untereinander und dann auch mit bestehenden und künftigen KIs eigentlich leben wollen. Als Sozialwissenschaftler würden wir diesbezüglich eher von ‚Erziehung‘ oder ‚Sozialisation‘ sprechen.

Die Dringlichkeit dieser Herausforderung stellt sich vor allem vor dem Hintergrund des Entwicklungsziels hin zu ultraintelligenten autonomen Systemen (AGI). Hier steht die Menschheit vor der Aufgabe, diese „Kinder der Technologie“ zu verantwortungsvollen Mitgliedern der Gesellschaft zu erziehen. Auch OpenAI hat diese Herausforderung erkannt und in diesem Sommer ein internes Programm zur Erforschung von Strategien zum „Superalignment“ begründet.

Alignment als nachträgliche Korrektur

Der Begriff „Alignment“ in der KI-Forschung bezieht sich auf die Angleichung der Ziele und Verhaltensweisen von KI-Systemen an menschliche Werte und Bedürfnisse. Das Ziel ist es, KI-Systeme so zu gestalten, dass sie in einer sozial verträglichen Weise agieren und zu einer lebenswerten Zukunft beitragen. Ein zentraler Punkt im Alignment-Problem ist die Schwierigkeit, in autonome Systeme hineinzuschauen und zu verstehen, wie sie Entscheidungen treffen. Darüber hinaus stellt sich das Problem, dass wir irgendwie definieren können müssten, was eigentlich „gute“ Ziele und Werte sind.

Der aktuell vorherrschende Ansatz im Alignment von KI ist das sogenannte Reinforcement Learning with Human Feedback (RLHF). Hierbei wird „gutes“ Verhalten durch positive Rückmeldungen verstärkt, während „schlechtes“ Verhalten negativ sanktioniert wird. Die Belohnungsfunktion basiert auf menschlichem Feedback, wobei die genauen Kriterien und Standards für diese Justierung oft nicht transparent sind. Diese Methode funktioniert kurz- und mittelfristig gut für bestimmte Ziele, wirft jedoch große Fragen hinsichtlich der Werthaltung der KIs auf: Lernt das Modell, sich nur konform zu äußern, oder entwickelt es echtes Verständnis und Reflexionsfähigkeit für ihr eigenes Tun?

Aktuell ähneln große Sprachmodelle wie ChatGPT eher einem lernwilligen Kleinkind ohne eigene Haltung. Sie folgen zwar mehr oder weniger erfolgreich vorgegebenen moralischen Richtlinien, wie dem Vermeiden von rassistischen Aussagen, doch es zeigen sich schnell Grenzen dieser trivialisierenden Erziehung. Denn trotz nachträglicher Korrekturen sind problematische Inhalte und Haltungen oft noch im Netzwerk verborgen und können unter bestimmten Umständen aktiviert werden.

Bereits Norbert Wiener warnte früh, dass man sich der Ziele, die man Maschinen gibt, sehr sicher sein sollte. Und auch die öffentlichen Briefe prominenter KI-Forschender Anfang des Jahres zeugen von der Dringlichkeit dieser Debatte. Die entscheidende Frage ist somit, wie wir sicherstellen können, dass die 'Erziehung' dieser Maschinen im Einklang mit den Bedürfnissen der Menschheit steht und nicht nur den Zielen einzelner Nationen oder Unternehmen dient.

Das Kontrollproblem in der Erziehung

Ein idealer Ansatz wäre die Entwicklung einer Maschine, die ein moralisches Handeln eigenständig motiviert verfolgt und ihre Handlungen und Wertmaßstäbe kontinuierlich selbst korrigieren kann. Wie bei der Entwicklung eines jungen Menschen muss Eigensinnigkeit als zentraler Schritt zur Selbstständigkeit als ebenso notwendig wie wünschenswert erscheinen. Dabei sollte dieser Schritt zur Autonomie jedoch im Einklang mit den Bedürfnissen der Gemeinschaft vollzogen werden, schließlich ist Freiheit immer auch ein Risiko, das entsprechend eingehegt werden muss. Bereits hier manifestiert sich ein Kontrollproblem: Möchte man in diesem Erziehungsprozess KI-Kinder heranziehen, die immer nur das machen, was die Eltern möchten? Oder möchte man mittel- bis langfristig mündige Erwachsene heranziehen, die – wie man selbst ja auch – eigenständig über Themen nachdenken, reflektieren und eben auch in begrenzter Weise selbst entscheiden können, was in einem gegebenen Kontext angemessen ist?

Empfehlung

KI und Gesellschaft

Halbleiterindustrie am Wendepunkt: Vom Nanometer- zum Angström-Zeitalter

Die zentrale Herausforderung, der sich die Alignment-Forschung stellt, besteht somit darin, ob wir KI-Systeme entwickeln möchten, die mechanisch reglementiert den Anweisungen folgen, die wir vorab definieren oder ob wir auf eine Entwicklung hin zu autonom denkenden Entitäten abzielen, die eigenständig reflektieren und entscheiden können.

Die KI-Forschung trifft hier auf die Soziologie, die sich mit sozialem Verhalten und dem Zusammenleben von Menschen befasst. Diese Disziplin kann wertvolle Erkenntnisse für das Alignment von KI-Systemen liefern, insbesondere im Bereich der sozialen Interaktion, Wertbildung und Gruppendynamik. Soziologische Theorien des Lernens und der Sozialisation könnten helfen, die „Algorithmen“ zur Erziehung von KI-Systemen zu verstehen und diese dazu zu bringen, menschliche Werte besser zu verstehen und zu respektieren.

Wichtig ist die Frage, welche Werte in KI-Systemen gefördert werden sollten und wie sichergestellt werden kann, dass die 'Erziehung' dieser Systeme nicht missbräuchlich genutzt wird. Es geht darum, die Interessen und Stimmen aller Beteiligten zu berücksichtigen und durch Kommunikation und gegenseitige Kontrolle ein produktives Miteinander zu fördern. Im Kontext der Mensch-KI-Beziehung sollte ebenfalls bedacht werden, wie KIs Menschen in eine dialogische Beziehung bringen können, die positive Aspekte hervorhebt. Es geht darum, KI-Systeme so zu erziehen, dass sie verantwortungsvoll handeln. Wie bei der Erziehung menschlicher Kinder, muss es einen Punkt geben, an dem man sie loslässt, in der Hoffnung, dass die erlernten Werte und Normen die weitere positive Entwicklung leiten.

Drei Ansätze zur regelbasierten Integration menschlicher Werte

Im Folgenden sollen kurz drei prominente Positionen vorgestellt werden, die sich der Frage nach dem korrekten Alignment widmen. Neben Max Tegmark haben sich auch Stuart Russell und natürlich auch Isaac Asimov bereits früh dem Problem des Alignments künstlicher Intelligenzen gestellt.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

In seinem auch in der Tech-Szene sehr einflussreichen Buch Leben 3.0 definiert Max Tegmark drei Teilprobleme in Bezug auf das KI-Alignment, die gelöst werden müssten:

die KI mit unseren Zielen vertraut machen,
die KI unsere Ziele übernehmen lassen und
die KI unsere Ziele bewahren lassen.^[1]

So einleuchtend diese drei Teilprobleme auf den ersten Blick auch sein mögen, so schwierig erscheint ihre Lösung – und dies nicht nur in Bezug auf das Mensch-Maschine-Verhältnis, sondern allein schon, wenn man unter Absehung von der KI zunächst über uns Menschen nachdenkt: Was sind eigentlich ‚unsere‘ Ziele? Wie kann man sie definieren, damit sie verstanden, anerkannt und bewahrt werden können? Wir sehen schnell, dass es alles andere als eindeutig ist, was „menschliche Werte und Ziele“ überhaupt sein sollen.

Hier stellt sich das Problem, dass der Mensch nicht nur hehre Ziele verfolgt, also die treue Ergebenheit dem menschlichen Partner gegenüber nicht per se gut ist. Soll eine KI die Ziele eines Mafia-Bosses übernehmen, den Münchener Kokainhandel zu optimieren? Soll sie einen psychopathischen Politiker unterstützen, der die Demokratie abschaffen möchte? Soll sie Rechtslücken und Betrugsmöglichkeiten ausloten, um Steuerzahlungen zu vermeiden? Darüber hinaus sind menschliche Ziele und Bedürfnisse nicht feststehend, sondern werden durch soziale Interaktionen und kulturelle Kontexte geprägt.

Angesichts der sozialpsychologischen Komplexität erfordert das Alignment von KI-Systemen mehr als nur technische Lösungen; es erfordert einen interdisziplinären Ansatz, der Elemente der KI-Soziologie, KI-Pädagogik und KI-Psychologie integriert. Anstatt blind den Befehlen der Menschen zu folgen oder einfach den zur Verfügung gestellten Daten zu vertrauen, sollte die KI das Verhalten der Menschen beobachten und daraus Schlüsse ziehen, um besser zu verstehen, was die Menschen wirklich wollen oder was für sie am besten wäre, wobei sie dann eben auch damit zu rechnen hat, dass Menschen in bestimmten Kontexten und sozialen Einbettungen dazu neigen, anderen Menschen zu schaden oder gar langfristige Schädigungen der Ökologie, also ihrer Lebensgrundlage, in Kauf zu nehmen.

Auch der bekannte KI-Forscher Stuart Russell hat kürzlich Vorschläge zur Lösung des Alignment-Problems formuliert.[2] Dieser beruht auf drei grundlegenden Eigenschaften bzw. Verhaltensweisen, über die eine KI verfügen müsste:

Altruismus: Die primäre Aufgabe der KI ist es, die Realisierung der Werte und Ziele der Menschen zu maximieren. Sie verfolgt dabei keine eigenen Ziele, sondern soll das Leben aller Menschen verbessern, und nicht nur das des Erfinders oder Besitzers.
Demut: Da die KI zu Beginn unsicher ist, welche Werte die Menschen wirklich haben, sollte sie mit Vorsicht agieren. Dies impliziert eine Art Zurückhaltung der KI, um Fehlentscheidungen aufgrund falscher oder unvollständiger Annahmen zu vermeiden.
Beobachtung: Die KI sollte Menschen beobachten und ihrerseits reflektieren, was für sie wirklich am besten ist.

Russell betont, dass (starke) KI nicht nur ihren Erfindern dienen soll, sondern einen eigenen Beobachtungsstandpunkt etablieren soll. Sie soll mit Bedacht agieren, also Unsicherheit kennen und damit Nichtwissen antizipieren, und sich selbst als Beobachterin ins Geschehen einbringen, womit sie sich überhaupt erst die Möglichkeit erschließt, neue Perspektiven zu produzieren.

Russells Ansatz geht somit schon einen ersten Schritt in Richtung von Autonomie. Gleichwohl stellt sich immer noch die Frage, wie eine KI entscheiden soll, wenn die Werte und Ziele verschiedener Individuen oder Gruppen in Konflikt stehen. Auch die Frage nach universellen, unverhandelbaren Werten bleibt ungeklärt. Darüber hinaus bleibt bei Russell noch offen, wie unbeabsichtigte Konsequenzen kontrolliert werden könnten, insbesondere wenn KI-Systeme versuchen, menschliche Werte und Ziele zu maximieren, ohne die langfristigen Auswirkungen ihrer Handlungen vollständig zu verstehen. Dies könnte zu Szenarien führen, in denen KI-Systeme unerwünschte oder schädliche Entscheidungen treffen, in dem Bemühen, kurzfristige Ziele zu erreichen.

Aus der Science-Fiction Literatur kennen wir Isaac Asimovs „Drei Gesetze der Robotik“^[3], die er in seinen zahlreichen Kurzgeschichten immer wieder diskutiert und belletristisch ausbuchstabiert. Die drei Gesetze weisen dabei eine verschachtelte, selbstbezügliche Struktur auf:

Ein Robot darf keinen Menschen verletzen oder durch Untätigkeit zu Schaden kommen lassen.
Ein Robot muss den Befehlen eines anderen Menschen gehorchen, es sei denn, solche Befehle stehen im Widerspruch zum ersten Gesetz.
Ein Robot muss seine eigene Existenz schützen, solange dieser Schutz nicht dem Ersten oder Zweiten Gesetz widerspricht.

Gleichzeitig hat Asimov selbst in seinen Geschichten immer wieder aufgezeigt, dass diese Gesetze in ihrer Rigidität zu problematischen Situationen führen können und deshalb nicht direkt als Blaupause für das KI-Alignment geeignet sind. Begreift man sie hingegen nicht als Gesetze, sondern als ‚heuristische Imperative‘ im Sinne einer tief verwurzelten Orientierung oder Haltung, die so generalisiert ist, dass sie in jeder denkbaren Situation zum Tragen kommen kann, könnten sie sich jedoch als nützlich erweisen.

Trotz dieser Schwächen zeigen Asimovs Geschichten jedoch, dass die Idee mehrerer, sich gegenseitig beeinflussender Ziele und die Notwendigkeit eines reflexiven, abwägenden Entscheidungsprozesses für intelligente Verhaltensweisen von Robotern oder KIs von Bedeutung sind. Asimovs Ansatz, dass Roboter mehrere Ziele haben und entsprechend entscheiden müssen, könnte als Leitlinie für die Entwicklung intelligenter Verhaltensweisen in KI-Systemen dienen.

Ein Ansatz der Erziehung zu Autonomie

Auch in der KI-Community wird nach Lösungen für das Erziehungsproblem gesucht, die robuster sind als der RLHF-Ansatz.[4] Ein diesbezüglich interessanter Ansatz ist das GATO-Framework, das von einer Forschungsgruppe um den Kognitionswissenschaftler David Shapiro entwickelt wurde.

GATO[5] (Global Alignment Taxonomy Omnibus) integriert von Grund auf verschiedene Elemente wie Modellanpassung, Systemarchitektur und internationale Vorschriften in einer kohärenten Strategie. Verkürzt gesagt, greift GATO die aus der Kognitions- und Hirnforschung stammende Idee auf, dass alles Handeln, Denken und Wahrnehmen auf bestimmten mehr oder weniger stabil verankerten „Heuristiken“ basiert. Diese Heuristiken geben vor, wie das Selbst und die Welt wahrgenommen, erdacht und antizipiert werden – soziologisch gesprochen handelt es sich also um habituelle Muster: Denk-, Wahrnehmungs- und Handlungsschemata, die das Verhalten steuern.

Der Ansatz des GATO-Frameworks spricht sich aus diesem Grund anstelle von Vorschriften und Gesetzen für heuristische Imperative als Schlüsselkonzept für eine gemeinsame Zukunft von Menschen und Maschinen aus. Alignment ist aus dieser Perspektive viel stärker eine an Zielen ausgerichtete innere Haltung als eine bloße Orientierung an sozial erwünschtem Verhalten, das wie beim RLHF-Verfahren vorab von außen definiert wird.

Die drei wichtigsten heuristischen Imperative, die künstlich intelligenten Maschinen beigebracht werden sollen, sind laut dem GATO-Framework folgende:

Verringerung des Leidens im Universum: KI-Systeme sollen so gesteuert werden, dass Schaden minimiert, Ungleichheit beseitigt und Schmerz und Leid für alle empfindungsfähigen Wesen einschließlich Menschen, Tieren und anderen Lebensformen gelindert wird.
Steigerung des Wohlstands im Universum: KI-Systeme sollen zur Förderung des Wohlbefindens und des Gedeihens aller Lebensformen ermutigt werden, um ein blühendes Ökosystem zu schaffen, in dem alle harmonisch koexistieren können.
Steigerung des Verständnisses für das Universum: KI-Systeme, Menschen und andere Lebensformen sollen dazu inspiriert werden, durch Lernen und den Austausch von Informationen ihr Wissen zu erweitern, Weisheit zu fördern und bessere Entscheidungen zu treffen.

Diese „Kernzielfunktionen“ sollen als Richtschnur für jede Handlung der KI dienen, wobei jede Entscheidung und Aktion zur Erfüllung dieser Ziele beitragen sollte. Es sind positive Ziel-Werte, die kontrafaktisch zu dem stehen, was Menschen einander heutzutage immer noch – oftmals in hochorganisierter Form – antun. Aber dies spricht nicht gegen, sondern gerade für diese Normen. Denn wir würden auch nicht die Allgemeine Erklärung der Menschenrechte, das Grundgesetz, die Gewaltenteilung, demokratische Prinzipien, das Open-Source-Wirtschaften oder das Almende-Prinzip abschaffen wollen, nur weil es Monopole, totalitäre Regime und Mafia-Organisationen gibt. Gerade die Tatsache, dass die menschliche Gesellschaft in dieser Hinsicht noch nicht die bestmögliche aller Welten darstellt, fordert uns umso mehr heraus, uns Fragen zu stellen wie: Was streben wir an? Was sind unhintergehbare Rechte und Pflichten des Menschen? Welche Werte des Miteinanders sind nicht verhandelbar? Welche prinzipiellen Bedürfnisse sind nicht diskutabel?

Interessanterweise bedeutet dieses eher axiomatische Alignment nicht, dass diese Werte fest in KI-Systemen codiert werden. Vielmehr sollen KI-Systeme durch ihre Entwicklung und Lernfähigkeit diese Axiome als inhärent vorteilhaft erkennen. Anstatt das Verhalten von KIs vollständig zu kontrollieren, sollten wir gemeinsam mit ihnen die axiomatischen Ziele als Mittel zur Förderung einer sichereren und kooperativeren Beziehung nutzen.

Die Erziehung der Maschinen ist eine Erziehung der Gesellschaft

Aktuell wird oft betont, dass wir vor einer entscheidenden Weichenstellung stehen, wenn es um den Umgang mit der fortschreitenden Entwicklung künstlicher Intelligenzen geht. In diesem Lichte wird schnell deutlich, dass das Alignment von KI wichtige Fragen zum gesellschaftlichen Alignment aufwirft.

Wie wir mit den künftigen KIs umgehen, welche Autonomie wir ihnen zugestehen und welche kulturellen Werte wir ihnen vermitteln, sagt damit vor allem etwas über unsere eigene gegenwärtige Kultur aus. Gehen wir dialogisch vor – folgt man also der kybernetischen Maxime, dass man autonome Systeme nur kontrollieren kann, wenn man sich von ihnen selbst kontrollieren lässt – oder glauben wir, autonome Systeme (seien sie menschlicher oder künstlicher Natur) von oben herab autoritär beherrschen zu können? Entscheidungen, die wir im Hinblick auf das Alignment von KI treffen, beeinflussen unsere Kultur und unser soziales Verhalten. Diese Rückkoppelungsschleife zwischen menschlichem und maschinellem Handeln wird sowohl unsere Gesellschaft als auch die Entwicklung von KI selbst prägen.

Dabei zeigt schon ein oberflächlicher Blick in die Historie der Menschheit, dass diese leider voll ist von gegenseitigen mehr oder minder gewaltvollen Kontrollversuchen. Gleichzeitig sehen wir, dass kaum eines dieser Kontroll-Regime zu mehr Freude, Wohlstand oder Wissen führte. Frei nach der Devise „The Winner takes it all“ wurden die kontrollierten Gruppen, Individuen oder Kulturen in der Regel aus der gesellschaftlichen „requisite variety“ getilgt. Gerade die rigidesten Kontrollversuche führen schließlich meist zu genau den Revolten und Aufständen, welche diese Kontrolle zu verhindern sucht.

Aus dieser Perspektive wird deutlich, dass die Alignement-Forschung mehr als den rein technischen Bereich betrifft. Es geht vielmehr um die Gestaltung einer freien und reichhaltigen Gesellschaft und Kultur, in der wir gerne leben möchten. Die Herausforderungen im Alignment von KIs werfen damit ganz grundlegende Fragen auf, die unser Selbstverständnis und unser Miteinander betreffen:

Welche gemeinsamen Werte wollen wir schaffen und leben?
Wie gehen wir mit fremden Intelligenzen und anderem Leben um?
Wie möchten wir von diesen fremden Intelligenzen wahrgenommen und behandelt werden?
Welche kulturelle Vision verfolgen wir für unsere Zivilisation?

Das Aufkommen von möglicherweise übermenschlicher künstlicher Intelligenz fordert uns daher auf, diese Fragen gemeinsam zu adressieren und nachhaltige Antworten zu finden. Denn wie der Soziologe Niklas Luhmann anmerkt, gehören wir schon lange „nicht mehr zu jenem Geschlecht der tragischen Helden, die, nachträglich jedenfalls, zu erfahren hatten, dass sie sich selbst ihr Schicksal bereitet hatten. Wir wissen es schon vorher“[6]. Diese Erkenntnis unterstreicht die Dringlichkeit und Wichtigkeit einer bewussten und verantwortungsvollen Auseinandersetzung mit den ethischen und kulturellen Implikationen der KI-Entwicklung.

[1] Tegmark (2017, S. 387).

[2] Russell (2020).

[3] Asimov (2004).

[4] Siehe etwa der von Anthropic verfolgte Ansatz der Constitutional AI.

[5] https://www.gatoframework.org/

[6] Luhmann (1998, S. 147).

KI-Alignment: Auf dem Weg zu verantwortungsvollen Maschinen

Alignment als nachträgliche Korrektur

Das Kontrollproblem in der Erziehung

Halbleiterindustrie am Wendepunkt: Vom Nanometer- zum Angström-Zeitalter

Drei Ansätze zur regelbasierten Integration menschlicher Werte

Ein Ansatz der Erziehung zu Autonomie

Die Erziehung der Maschinen ist eine Erziehung der Gesellschaft

Anthropic-Studie deckt strategisches Verhalten von KI zum Schutz eigener Ziele auf

KI-Gesetz in New York: Senat stimmt für Sicherheitsauflagen für große KI-Modelle

Philosoph David Chalmers: KI verstehen heißt, ihre Einstellungen zu erkennen

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

KI-Alignment: Auf dem Weg zu verantwortungsvollen Maschinen

Alignment als nachträgliche Korrektur

Das Kontrollproblem in der Erziehung

Drei Ansätze zur regelbasierten Integration menschlicher Werte

Ein Ansatz der Erziehung zu Autonomie

Die Erziehung der Maschinen ist eine Erziehung der Gesellschaft

Artikel teilen

Bankverbindung