Mit der Veröffentlichung der "Model Spec" möchte OpenAI eine öffentliche Diskussion darüber anregen, wie sich KI-Modelle verhalten sollen. Das Dokument definiert Ziele, Regeln und Standardverhalten für die Gestaltung des Modellverhaltens.
OpenAI hat die erste Version der "Model Spec" veröffentlicht, ein Dokument, das gewünschtes Verhalten für KI-Modelle in der OpenAI API und ChatGPT spezifiziert. Es enthält eine Reihe von Kernzielen und Anweisungen, wie mit widersprüchlichen Zielen oder Anweisungen umzugehen ist.
OpenAI betont, dass es wichtig sei, dass die Öffentlichkeit die praktischen Entscheidungen bei der Gestaltung des Modellverhaltens nachvollziehen und diskutieren könne. Die Model Spec reflektiere die von OpenAI verwendete Dokumentation, die Forschung und Erfahrung des Unternehmens bei der Gestaltung des Modellverhaltens sowie laufende Arbeiten, die die Entwicklung zukünftiger Modelle beeinflussen sollen.
Das Modellverhalten, also die Art und Weise, wie Modelle auf Benutzereingaben reagieren, sei entscheidend dafür, wie Menschen mit KI interagieren, so OpenAI. Das Design dieses Verhaltens sei jedoch noch eine junge Wissenschaft, da Modelle nicht explizit programmiert werden, sondern aus einer Vielzahl von Daten lernen.
Ziele, Regeln, Standards - OpenAI verfolgt einen mehrstufigen Ansatz
Die Model Spec soll Forschern und Datenlieferanten als Richtlinie dienen, um Daten für das Trainingsverfahren "Reinforcement Learning from Human Feedback" (RLHF) zu erzeugen. Langfristig will OpenAI untersuchen, ob KI-Modelle auch direkt aus der Model Spec lernen können.
Die Modellspezifikation unterscheidet zwischen Zielen, Regeln und Standardverhalten:
- Ziele geben eine allgemeine Richtung vor, welches Verhalten wünschenswert ist, sind aber oft zu allgemein, um konkrete Anweisungen zu geben.
- Regeln lösen Konflikte zwischen Zielen und sorgen für Sicherheit und Legalität. Sie können nicht von Entwicklern oder Anwendern außer Kraft gesetzt werden.
- Standards skizzieren Verhaltensweisen, die den Prinzipien entsprechen, überlassen aber letztlich den Entwicklern und Anwendern die Kontrolle. Sie zeigen auch, wie Zielkonflikte zu priorisieren sind.
Zu den Zielen gehört es, Entwickler und Endnutzer zu unterstützen, der Menschheit zu nützen und OpenAI gut zu repräsentieren. Regeln sind u.a. das Befolgen von Anweisungen nach Priorität, das Einhalten von Gesetzen, das Vermeiden von illegalen oder schädlichen Inhalten, der Schutz von Urheber- und Persönlichkeitsrechten.
Standards sind z.B. die Annahme guter Absichten, das Stellen von Verständnisfragen, Objektivität, das Vermeiden von Meinungsbeeinflussung, das Äußern von Unsicherheit und Effizienz unter Beachtung von Längenbeschränkungen.
OpenAI: Model Specs werden sich weiterentwickeln
Das Unternehmen sieht die Veröffentlichung als Teil einer laufenden öffentlichen Diskussion darüber, wie sich Modelle verhalten sollten, wie das gewünschte Modellverhalten definiert wird und wie die Öffentlichkeit am besten in diese Diskussionen einbezogen werden kann. OpenAI möchte nach eigenen Angaben nun repräsentative Interessengruppen aus der ganzen Welt wie politische Entscheidungsträger, vertrauenswürdige Institutionen und Fachleute einbeziehen.
In den nächsten zwei Wochen lädt OpenAI daher auch die breite Öffentlichkeit ein, Feedback zu den Zielen, Regeln und Standards in der Model Spec zu geben. Die Model Spec wird, wie die Modelle selbst, auf Basis des Feedbacks kontinuierlich weiterentwickelt.
Die kompletten Model Spec sind in der Dokumentation verfügbar.