Das Alignment-Problem: Wie KI menschenfreundlich werden soll

Besonders mächtige Künstliche Intelligenz, die ihre Ziele zwar erfüllt, dafür aber zweifelhafte Wege einschlägt, könnte der Menschheit gefährlich werden. OpenAI will dieses dystopische Szenario in drei Schritten verhindern.

Das anschaulichste Beispiel für die fehlgeschlagene Ausrichtung Künstlicher Intelligenz liefert der Philosoph Nick Bostrom: 2003 veröffentlichte er den Text "Ethical Issues in Advanced Artificial Intelligence", der eine auf Büroklammerherstellung optimierte KI beschreibt. Sie findet heraus, dass menschliche Körper eine wertvolle Ressource für die Büroklammerproduktion sind. Der Ausgang dieser Geschichte liegt nahe.

Bostroms heutiger Ansatz: Menschen sollten auf die intellektuelle Kapazität einer mächtigen KI vertrauen, ihr beibringen, was Menschen wollen und dafür sorgen, dass sie ein Interesse hat, dass menschliche Bedürfnisse erfüllt werden. KI benötige einen gesunden Menschenverstand, so Bostrom.

OpenAI setzt auf Zusammenspiel zwischen Mensch und Maschine

Das US-KI-Unternehmen OpenAI gibt jetzt einen Einblick in die eigene Alignment-Forschung, die Bostroms Forderungen zumindest in Ansätzen aufgreift. OpenAIs Grundsatz lautet: KI-Systeme sollen aus menschlichem Feedback lernen und gleichzeitig Menschen bei der Bewertung von KI unterstützen.

Aktuelle Alignment-Ansätze möchte die Firma maximal ausreizen, um ihre Möglichkeiten und Grenzen auszuloten und zu dokumentieren. In der Forschung setzt OpenAI dafür auf drei Säulen.

Training von KI-Systemen mit menschlichem Feedback
Training von KI-Systemen zur Unterstützung der menschlichen Bewertung
Training von KI-Systemen zur Durchführung der Alignment-Forschung

OpenAI räumt ein, dass allein diese drei Bereiche zu oberflächlich seien, da etwa Menschen je nach kulturellem Hintergrund auf unterschiedliche Art bewerten würden. Eine wesentliche Frage sei daher ebenso, auf wen KI-Systeme zugeschnitten werden sollen. Alignment ist nicht allein ein technisches Problem: Es ist auch eine soziale und politische Herausforderung.

Menschliches Feedback hilft bei der KI-Ausrichtung

Ein zentraler Baustein von OpenAIs aktueller Alignment-Forschung sind die sogenannten InstructGPT-Modelle, Derivate aus großen KI-Modellen wie GPT-3. Sie sind darauf optimiert, expliziten und impliziten menschlichen Bedürfnissen besser zu folgen und Werte wie Wahrhaftigkeit, Fairness und Sicherheit zu berücksichtigen. OpenAI integriert bei InstructGPT-Modellen menschliche Bewertungen in den Datensatz für das KI-Training.

InstructGPT-Modelle würden von Menschen im Durchschnitt bereits besser bewertet und lieber genutzt als Standard-KI-Modelle. Das sei an der eigenen Programmierschnittstelle für natürliche Sprache ablesbar, so OpenAI.

Allerdings produziere auch diese Modell-Klasse noch immer Falschmeldungen oder toxische Ausgaben. Zudem sei ein solches Training mit menschlichem Feedback wohl nicht ausreichend, um den möglichen überlegenen maschinellen Intellekt einer generellen Künstlichen Intelligenz in Einklang mit menschlichen Bedürfnissen zu bringen. Dennoch sei menschliches Feedback ein Grundstein einer möglichen Alignment-Lösung.

Empfehlung

KI-Forschung

KI-Agenten übertreffen menschliche Hackerteams in Cybersecurity-Wettbewerben

Die Maschine soll dem Menschen bei der Bewertung helfen

Ein Schwachpunkt bei der menschlichen Bewertung ist der Mensch selbst: Je komplexer die Aufgaben werden, die eine KI löst, desto schwieriger wird es für Menschen, dem KI-System nützliches Feedback zu geben.

Die KI könne womöglich nur bei für Menschen lösbaren Fragen um menschliche Hilfe bitten oder im schlimmsten Fall Menschen bloß jene Dinge mitteilen, die diese hören möchte, und die Wahrheit verschweigen.

KI-Systeme sollen daher komplexe Prozesse in einzelne, für Menschen bewertbare Schritte aufteilen. Ein Beispiel liefert ein KI-System von OpenAI, dass die Bewertung einer maschinellen Buchzusammenfassung mit Zusammenfassungen einzelner Kapitel unterstützen.

Die Entwicklung solcher KI-Assistenzsysteme sieht OpenAI als besten Weg, weitere Alignment-Forschung zu betreiben: "Unsere Alignment-Verfahren müssen auch dann funktionieren, wenn unsere KI-Systeme sehr kreative Lösungen vorschlagen (wie AlphaGos Zug 37). Daher sind wir besonders daran interessiert, Modelle zu trainieren, die Menschen dabei helfen, korrekte von irreführenden oder trügerischen Lösungen zu unterscheiden."

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

KI richtet sich selbst aus

Der dritte Baustein in OpenAIs Alignment-Strategie: Künstliche Intelligenz treibt die Alignment-Forschung eigenständig voran.

Für diese Strategie existiert ein triftiger Grund: Mit dem Fortschreiten von KI seien einige neue Alignment-Probleme zu erwarten, mit denen bislang niemand rechne. Eine skalierende, grundsätzliche Lösung für das Alignment-Problem sei daher wahrscheinlich schwierig zu finden, schreibt OpenAI.

Pragmatischer sei es daher, KI-Systeme zu entwickeln, die Alignment-Forschung schneller und besser betreiben können als Menschen. Menschen würde es wahrscheinlich deutlich leichter fallen, die Forschungsergebnisse einer KI zu bewerten, statt diese selbst zu erzeugen.

"Unser Ziel ist es, Modelle so zu trainieren, dass wir fast die gesamte kognitive Arbeit, die für die Alignment-Forschung erforderlich ist, auslagern können", schreibt OpenAI.

Für die maschinelle Alignment-Bewertung reichten bereits engere KI-Systeme, die in ihrem jeweiligen Forschungsbereich menschliche Leistung übertreffen. Diese spezialisierten KIs seien voraussichtlich leichter auszurichten als fähige Allzwecksysteme.

Große Sprachmodelle trügen "eine Menge Wissen und Informationen über menschliche Werte" aus dem Internet in sich und seien daher potenziell gut für die Automatisierung der Alignment-Forschung geeignet. Zudem verfolgten sie keine eigenen Ziele.

Zukünftige Versionen von KI-Systemen wie WebGPT, InstructGPT und Codex könnten die Grundlage für diese automatisierte Alignment-Forschung werden. Noch sei nicht klar, wann diese Systeme leistungsfähig genug seien.

"Sobald wir ein Modell trainiert haben, das nützlich sein könnte, planen wir, es der externen Alignment-Forschungsgemeinschaft zugänglich zu machen", schreibt OpenAI.

Risiken der Alignment-Forschung

OpenAI beschreibt ebenso Risiken der eigenen Alignment-Ansätze. So könnte etwa der Einsatz von KI-Assistenz für die Bewertung dazu führen, dass Vorurteile verstärkt würden. Zudem sei das Alignment einer generellen KI wohl deutlich anspruchsvoller als heutiger KI-Systeme, auch wenn OpenAI einen fließenden Übergang zu immer mächtigeren Systemen erwartet.

"Wenn es größere Brüche oder Paradigmenwechsel gibt, dann sind die meisten Lektionen, die wir aus der Anpassung von Modellen wie InstructGPT gelernt haben, möglicherweise nicht direkt nützlich", schreibt OpenAI.

Auch die Alignment-Forschung durch KI könne sich als Risiko erweisen, wenn die dafür notwendigen KI-Systeme ohne Alignment schon zu gefährlich seien. In diesem Fall würde die direkte Ausrichtung genereller KI wieder im Fokus stehen.

Mehr zum Thema generelle KI, Super-KI, Doomsday-Szenarien und die Ausrichtung Künstlicher Intelligenz besprechen wir in unserem DEEP MINDs KI-Podcast mit dem KI-Forscher Connor Leahy.

Das Alignment-Problem: Wie KI menschenfreundlich werden soll

OpenAI setzt auf Zusammenspiel zwischen Mensch und Maschine

Menschliches Feedback hilft bei der KI-Ausrichtung

KI-Agenten übertreffen menschliche Hackerteams in Cybersecurity-Wettbewerben

Die Maschine soll dem Menschen bei der Bewertung helfen

KI richtet sich selbst aus

Risiken der Alignment-Forschung

Anthropic-Studie deckt strategisches Verhalten von KI zum Schutz eigener Ziele auf

KI-Gesetz in New York: Senat stimmt für Sicherheitsauflagen für große KI-Modelle

Philosoph David Chalmers: KI verstehen heißt, ihre Einstellungen zu erkennen

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Das Alignment-Problem: Wie KI menschenfreundlich werden soll

OpenAI setzt auf Zusammenspiel zwischen Mensch und Maschine

Menschliches Feedback hilft bei der KI-Ausrichtung

Die Maschine soll dem Menschen bei der Bewertung helfen

KI richtet sich selbst aus

Risiken der Alignment-Forschung

Artikel teilen

Bankverbindung