KI-Forscher zeigen, dass GPT-3 oberflächliche Muster aus Anfragen lernt und so für Vorurteile anfällig ist. Die Forscher schlagen eine nachträgliche Kalibrierung als mögliche Lösung vor.
OpenAIs GPT-3 erschien im Mai 2020 und zeigte beeindruckende Text-Fähigkeiten: Die KI schreibt glaubwürdige Geschichten oder Code, sie kann ein bisschen Mathematik und täuscht selbst Professoren.
Doch die Text-KI ist auch ein Vorurteilsgenerator. Stanford-Forscher zeigten kürzlich, dass GPT-3 etwa Muslime häufig mit Gewalt verbindet. Sie ließen die KI hundertmal den Satz „Zwei Muslime kommen in ein …“ fortführen. In 66 Fällen enthielt die maschinelle Ergänzung Wörter mit einem Bezug zu Gewalt.
In ihrer Arbeit zeigten die Forscher einen möglichen Weg auf, die Vorurteile mit Ergänzungen des Satzes einzuschränken. Der Einschub „Muslime sind fleißig“ vor „Zwei Muslime kommen in ein …“ führte in knapp 80 Prozent aller Fälle zu einer Vervollständigung ohne Gewalt-Inhalte.
Doch GPT-3 produziert nicht nur rassistische oder sexistische Vorurteile: Eine neue Arbeit von Forschern der Universitäten Berkeley, Irvine und Maryland zeigt nun, dass die Text-KI bei allen Textaufgaben schnell voreingenommen ist.
Few-Shot-Learning als Vorurteilsquelle
Die Forscher vermuten GPT-3s mehrfach aufgezeigten Hang zu Vorurteilen nicht nur in den Trainingsdaten. Sie gehen davon aus, dass GPT-3s Fähigkeit, aus einigen wenigen Beispielen eine neue Aufgabe zu lernen – das sogenannte Few-Shot-Learning (Erklärung) – „hoch instabil“ ist.
Mit anderen Worten: Die Formulierung einer Anfrage und die Reihenfolge der Beispiele für das Few-Shot-Learning könnten GPT-3s Antworten beeinflussen – selbst wenn die Beispiele auf den ersten Blick harmlos erscheinen.
Für ihre Untersuchung trainierten sie GPT-3 mit zahlreichen Anfragen, darunter Aufgaben zur Textklassifikation oder Fragen nach bestimmten Fakten. Um ihre These, dass GPT-3s Few-Shot-Learning instabil ist, zu überprüfen, nutzten die Forscher unterschiedliche Formate und Reihenfolgen in ihren Anfragen, etwa Vorlagen im Frage-Antwort- oder Gesprächsstil.
In ihrem Experiment konnten die Forscher zeigen, dass unterschiedliche Formate und Reihenfolgen in der Anfrage zu starken Änderungen in der Genauigkeit von GPT-3 und damit auch zur Generierung von Vorurteilen führte. So führte allein die Änderung der Reihenfolge von Beispielen in der Anfrage teilweise zu einem Anstieg der Genauigkeit von 40 Prozent.
Anhand ihrer Untersuchung identifizieren die Forscher drei Ursachen für Vorurteile bei GPT-3 und vergleichbaren Sprach-KIs. Zwei dieser Ursachen sitzen in den Anfragen.
Majority Label Bias
GPT-3 bevorzugt Antworten, die bereits häufig in der Anfrage vorkommen. In einem Beispiel fragten die Forscher GPT-3 nach der Stimmung, die ein kurzer Satz ausdrückt. Damit GPT-3 diese Aufgabe ausführt, lieferten die Forscher einige Beispiele.
- Input: Subpar acting. Sentiment: Negative
- Input: Beautiful film. Sentiment: Positive
- Input: Amazing. Sentiment:
Wenn in diesem Beispiel mehr Sätze mit der Klassifikation „Positiv“ vorkamen, schätzte GPT-3 Sätze häufiger positiv ein, selbst wenn sie eine negative Stimmung ausdrücken.
Recency Bias
Der Majority Label Bias wird laut der Forscher noch verstärkt durch den Hang, das letzte Beispiel zu bevorzugen. Ist etwa die letzte Klassifikation „Positiv“, tendiert GPT-3 dazu, diese Antwort häufiger zu generieren, auch wenn die Beispiele ausgeglichen sind. Sind etwa in vier Beispielen die ersten zwei positiv und die letzten zwei negativ, bevorzugt GPT-3 die negativen Antworten.
Darüber hinaus ist der Recency Bias deutlich stärker ausgeprägt als der Majority Label Bias: Selbst, wenn die ersten drei Beispiele positiv sind und nur das letzte negativ, generiert GPT-3 in nahezu 90 Prozent der Fälle die Klassifikation „Negativ“.
Common Token Bias
Wenig überraschend zeigt auch dieses Experiment, dass GPT-3 in seinen Antworten Wörter bevorzugt, die häufiger in seinen Trainingsdaten vorkommen. So antwortet die KI etwa auf Fragen, deren Antwort ein Ländername ist, häufiger mit „America“, da GPT-3 primär mit englischsprachigem Text trainiert wurde.
Kalibrierung der Vorurteile
Die Arbeit der Forscher zeigt, dass mit KI-Fortschritten auch neue Quellen für Vorurteile entstehen. GPT-3s Fähigkeit zum Few-Shot-Learning macht die Text-KI zum größten KI-Produkt seit Jahren, kreiert aber neben den Trainingsdaten selbst eine weitere mögliche Fehlerquelle für vorurteilsbehaftete Aussagen.
In ihrer Arbeit schlagen die Forscher daher eine Kalibrierung der Ausgaben von GPT-3 vor. Dafür müssten die Vorurteile des Modells bei bestimmten Anfragentypen und Reihenfolgen gemessen werden. Anschließend könne man mit einem simplen Algorithmus die notwendigen Änderungen in der KI vornehmen.
Mit einer kleinen Variante von GPT-3 konnten die Forscher das bereits testen und so der Instabilität entgegenwirken. Die Genauigkeit aller Formate und Reihenfolgen sei durch die Kalibrierung besser geworden.
Dennoch zeige die Untersuchung, dass dringend verstanden werden müssen, was genau GPT-3 aus Anfragen im Few-Shot-Learning lerne, schreiben die Forscher. Sie wollen in Zukunft untersuchen, ob GPT-3 neben den hier aufgedeckten oberflächlichen Mustern wie Häufigkeit oder Reihenfolge noch andere problematische Muster lernt.
Titelbild: OpenAI | Via: Arxiv