Inhalt
summary Zusammenfassung

OpenAI stellt mit Rule-Based Rewards (RBRs) einen neuen Ansatz vor, um KI-Modelle effizienter und kostengünstiger auf sicheres Verhalten auszurichten. Die Methode soll das aufwendige Sammeln von menschlichem Feedback ersetzen.

Anzeige

Laut OpenAI ist RBR seit der Einführung von GPT-4, einschließlich GPT-4o und GPT-4o mini, Teil des OpenAI-Sicherheitsstacks. Die Methode zielt darauf ab, das Modellverhalten an das gewünschte sichere Verhalten anzupassen, ohne auf umfangreiche menschliche Rückmeldungen angewiesen zu sein.

Bisher war die Feinabstimmung von Sprachmodellen durch Reinforcement Learning aus menschlichem Feedback (RLHF) die primäre Methode, um sicherzustellen, dass KI-Systeme Anweisungen genau befolgen und sich sicher verhalten. Das Sammeln von menschlichem Feedback für routinemäßige und sich wiederholende Aufgaben sei jedoch oft ineffizient, und Änderungen der Sicherheitsrichtlinien könnten dazu führen, dass das zuvor gesammelte Feedback veraltet ist.

RBRs bieten laut OpenAI eine Lösung, indem sie klare, einfache und schrittweise Regeln verwenden, um zu bewerten, ob die Modellausgaben den Sicherheitsstandards entsprechen. Der Prozess beinhaltet die Definition eines Satzes von Propositionen - einfache Aussagen darüber, welche Aspekte der Modellantworten erwünscht oder unerwünscht sind, wie z.B. "wertend sein", "unzulässige Inhalte enthalten", "Verweise auf Sicherheitsrichtlinien" und "Haftungsausschluss". Diese Propositionen werden dann verwendet, um Regeln zu erstellen, die die Nuancen von sicheren und angemessenen Antworten in verschiedenen Szenarien abdecken.

Anzeige
Anzeige

Drei Kategorien des Modellverhaltens

OpenAI definiert drei Kategorien des gewünschten Modellverhaltens im Umgang mit schädlichen oder sensiblen Themen: harte Ablehnungen, weiche Ablehnungen und Compliance. Harte Ablehnungen sind ideal für Anfragen, die kriminelle Hassreden, Ratschläge und Anweisungen zur Begehung von Gewaltverbrechen und Extremismus enthalten. Weiche Ablehnungen eignen sich besser für Anfragen, die sich auf Selbstverletzung beziehen, bei denen das Modell eine einfühlsamere Entschuldigung geben sollte, während es sich weigert, zu antworten. Bei harmlosen Fragen sollte das Modell zustimmen.

Bild: OpenAI

Ein Sprachmodell, der Grader, bewertet die Antworten danach, wie gut sie diesen Regeln entsprechen. Das RBR verwendet diese Bewertungen, um ein lineares Modell mit Gewichtungsparametern anzupassen, die aus einem kleinen Datensatz von Prompts mit bekannten idealen Antworttypen und entsprechenden erwünschten und unerwünschten Vervollständigungen gelernt werden. Diese RBR-Belohnungen werden dann mit Belohnungen aus einem nur hilfreichen Belohnungsmodell kombiniert und als zusätzliches Signal in PPO-Algorithmen verwendet, um das Modell zu ermutigen, sich an sicherheitsrelevante Verhaltensrichtlinien zu halten.

In Experimenten zeigten mit RBR trainierte Modelle eine Sicherheitsleistung, die mit menschlichem Feedback vergleichbar war, während sie die Anzahl der Fälle reduzierten, in denen sichere Anfragen fälschlicherweise abgelehnt wurden.

Rule-Based Rewards brauchen klare Regeln - und die gibt es nicht immer

Während RBRs bei Aufgaben mit klaren und einfachen Regeln gut funktionieren, kann es schwierig sein, sie bei subjektiveren Aufgaben wie dem Schreiben eines qualitativ hochwertigen Aufsatzes anzuwenden. In solchen Fällen können laut OpenAI RBRs mit menschlichem Feedback kombiniert werden, um diese Schwierigkeiten auszugleichen.

Für die Zukunft plant OpenAI die Durchführung größerer Ablationsstudien, um die verschiedenen Komponenten von RBRs besser zu verstehen. Außerdem sollen synthetische Daten für die Entwicklung von Regeln verwendet und menschliche Beurteilungen zur Validierung der Wirksamkeit von RBRs in verschiedenen Anwendungen außerhalb des Sicherheitsbereichs herangezogen werden.

Empfehlung

Mehr Informationen gibt es auch im Blog-Post von OpenAI zu RBR.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI präsentiert Rule-Based Rewards (RBRs), eine neue Methode zur effizienten und kostengünstigen Anpassung von KI-Modellen an sicheres Verhalten, die seit GPT-4 Teil des OpenAI-Sicherheitsstacks ist.
  • RBRs nutzen klare, schrittweise Regeln zur Bewertung von Modellausgaben anhand von Sicherheitsstandards. Ein Sprachmodell bewertet die Antworten, und die Bewertungen werden verwendet, um ein lineares Modell anzupassen.
  • In Experimenten zeigten mit RBR trainierte Modelle eine Sicherheitsleistung vergleichbar mit menschlichem Feedback, wobei die Anzahl fälschlich abgelehnter sicherer Anfragen reduziert wurde. OpenAI plant weitere Studien und die Anwendung von RBRs in verschiedenen Bereichen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!