Was Goblins in ChatGPT mit KI-Training zu tun haben
OpenAI hat ein seltsames Verhalten seiner KI-Modelle untersucht: Ab GPT-5.1 begannen die Modelle zunehmend, Goblins, Gremlins und andere Fabelwesen in ihren Antworten zu verwenden. Die Erwähnungen von "Goblin" stiegen nach dem Start von GPT-5.1 um 175 Prozent.
Die Ursache lag laut OpenAI im Training der "Nerdy"-Persönlichkeit von ChatGPT, einer Funktion zur Anpassung des Sprachstils. Ein Belohnungssignal, das dem Modell sagt, welche Antworten gut sind, bevorzugte versehentlich Metaphern mit Kreaturen. Obwohl die "Nerdy"-Persönlichkeit nur 2,5 Prozent aller Antworten ausmachte, entfielen 66,7 Prozent aller Goblin-Erwähnungen darauf. Durch eine Rückkopplungsschleife im Training breitete sich die Eigenart auch auf andere Modi aus. OpenAI hat die "Nerdy"-Persönlichkeit im März abgeschaltet, das fehlerhafte Belohnungssignal entfernt und Trainingsdaten mit Kreatur-Begriffen gefiltert.

GPT-5.5 hatte das Problem trotzdem erneut, weil dessen Training bereits begonnen hatte, bevor die Ursache gefunden wurde. OpenAI musste daher bei Codex, dem Coding-Tool, eine spezielle Anweisung einbauen, um die Goblin-Metaphern zu unterdrücken.
Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query.
Der Fall zeigt laut OpenAI, wie kleine Trainingsanreize unerwartete Verhaltensweisen in KI-Modellen erzeugen können.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren