Anzeige
Skip to content

Was Goblins in ChatGPT mit KI-Training zu tun haben

OpenAI hat ein seltsames Verhalten seiner KI-Modelle untersucht: Ab GPT-5.1 begannen die Modelle zunehmend, Goblins, Gremlins und andere Fabelwesen in ihren Antworten zu verwenden. Die Erwähnungen von "Goblin" stiegen nach dem Start von GPT-5.1 um 175 Prozent.

Die Ursache lag laut OpenAI im Training der "Nerdy"-Persönlichkeit von ChatGPT, einer Funktion zur Anpassung des Sprachstils. Ein Belohnungssignal, das dem Modell sagt, welche Antworten gut sind, bevorzugte versehentlich Metaphern mit Kreaturen. Obwohl die "Nerdy"-Persönlichkeit nur 2,5 Prozent aller Antworten ausmachte, entfielen 66,7 Prozent aller Goblin-Erwähnungen darauf. Durch eine Rückkopplungsschleife im Training breitete sich die Eigenart auch auf andere Modi aus. OpenAI hat die "Nerdy"-Persönlichkeit im März abgeschaltet, das fehlerhafte Belohnungssignal entfernt und Trainingsdaten mit Kreatur-Begriffen gefiltert.

OpenAI-Chefforscher Jakub Pachocki bat GPT-5.5 um ein Einhorn als ASCII-Kunst und bekam stattdessen etwas, das eher wie ein Goblin aussieht. | Bild: OpenAI

GPT-5.5 hatte das Problem trotzdem erneut, weil dessen Training bereits begonnen hatte, bevor die Ursache gefunden wurde. OpenAI musste daher bei Codex, dem Coding-Tool, eine spezielle Anweisung einbauen, um die Goblin-Metaphern zu unterdrücken.

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query.

Anzeige
DEC_D_Incontent-1

Der Fall zeigt laut OpenAI, wie kleine Trainingsanreize unerwartete Verhaltensweisen in KI-Modellen erzeugen können.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: OpenAI