OpenAI veröffentlicht eine stark erweiterte Version seiner Model Spec, einem Dokument, das definiert, wie sich KI-Modelle verhalten sollen.
Im Mai 2024 veröffentlichte OpenAI erstmals Richtlinien für das gewünschte Verhalten seiner KI-Modelle in der OpenAI API und ChatGPT. Das Dokument legte Ziele, Regeln und Standardverhalten für das Design des Modellverhaltens fest. Die Model Spec sollte auf Basis von öffentlichem Feedback kontinuierlich weiterentwickelt werden. Nun hat OpenAI eine neue - deutlich umfangreichere - Version veröffentlicht.
Die neue 63-seitige Spezifikation legt Richtlinien fest, wie KI-Modelle mit kontroversen Themen, Benutzeranpassungen und mehr umgehen sollen. Sie betont drei Hauptprinzipien: Anpassbarkeit, Transparenz und geistige Freiheit.
Eine wesentliche Veränderung zeigt sich im Umgang mit sensiblen Themen. Statt diese mit äußerster Vorsicht zu behandeln, sollen die Modelle nun gemeinsam mit den Nutzern nach der Wahrheit suchen und dabei klare moralische Positionen zu Themen wie Desinformation einnehmen.
Joanne Jang vom OpenAI-Verhaltensteam betont gegenüber The Verge: "Wir können nicht ein einziges Modell mit exakt den gleichen Verhaltensstandards schaffen, das alle auf der Welt lieben werden".
"Grown-up" Modus und weniger "Speichelleckerei"
Die Spezifikation enthält auch neue Richtlinien für nicht jugendfreie Inhalte. Aufgrund von Nutzer-Feedback erwägt OpenAI einen "Grown-up Mode", der bestimmte Arten von Erwachseneninhalten in angemessenen Kontexten erlaubt, während schädliche Inhalte weiterhin strikt verboten bleiben. Ähnliches hatte CEO Sam Altman bereits früher angedeutet.
Darüber hinaus will OpenAI das Problem der "KI-Speichelleckerei" angehen - die Tendenz von KI-Modellen, übermäßig zustimmend zu sein. Die Modelle sollen künftig ehrliches Feedback geben und sich "eher wie ein solider Resonanzboden verhalten, an dem die Nutzer ihre Ideen abprallen lassen können - und nicht wie ein Schwamm, der Lob verteilt".
Ob die kürzlich angekündigten Modelle GPT-4.5 und GPT-5 diese Vorgaben bereits erfüllen werden, bleibt abzuwarten.