Inhalt
summary Zusammenfassung

OpenAI hat "Kritiker" KI-Modelle entwickelt, die Menschen helfen, Fehler im Code großer Sprachmodelle zu finden. Diese Modelle sollen die grundlegenden Grenzen des Reinforcement Learning mit menschlichem Feedback (RLHF) überwinden.

Anzeige

OpenAI hat ein neues KI-Modell namens CriticGPT vorgestellt, das auf GPT-4 basiert und darauf trainiert wurde, Fehler in ChatGPT-Ausgaben zu erkennen. Ziel ist es, menschliche Trainer bei der Bewertung von KI-Antworten im Rahmen des Reinforcement Learning from Human Feedback (RLHF) zu unterstützen.

Laut OpenAI können Menschen mithilfe von CriticGPT in 60 Prozent der Fälle bessere Bewertungen von ChatGPT-Code abgeben als ohne KI-Unterstützung. Das Unternehmen plant, CriticGPT-ähnliche Modelle in seinen RLHF-Bewertungsprozess zu integrieren.

"Mit zunehmender Genauigkeit von ChatGPT werden die Fehler subtiler und für menschliche Bewerter schwieriger zu erkennen", erklärt OpenAI. Dies stellt eine grundlegende Einschränkung der RLHF dar und kann die Ausrichtung von Modellen erschweren, die nach und nach mehr Wissen erwerben als einzelne Menschen.

Anzeige
Anzeige
Bild: OpenAI

Nicht mehr ganz so menschliches Feedback beschleunigt KI-Training

CriticGPT wurde ähnlich wie ChatGPT mit RLHF trainiert. Das Modell wurde jedoch mit einer großen Anzahl von Eingaben trainiert, die absichtlich eingefügte Fehler enthielten. KI-Trainer fügten manuell Fehler in den von ChatGPT geschriebenen Code ein und gaben dann Feedbackbeispiele, als ob sie den Fehler entdeckt hätten.

In den Tests bevorzugten die Trainer in 63 % der Fälle bei natürlich auftretenden Fehlern die Kritik von CriticGPT gegenüber der Kritik von ChatGPT. CriticGPT produzierte weniger "Nörgeleien" und halluzinierte seltener Probleme.

OpenAI betont, dass die Vorschläge von CriticGPT nicht immer korrekt sind. Die Kombination von Mensch und CriticGPT führte jedoch zu einer umfassenderen Kritik als der Mensch allein und zu weniger halluzinierten Fehlern als das Modell allein - die Kombination von Mensch und Maschine schlug den Menschen in 60 Prozent der Fälle.

Die Forscher räumen aber auch ein, dass ihre Methode Grenzen hat. So wurden nur relativ kurze Codebeispiele untersucht. Für die Bewertung komplexerer Aufgaben seien andere Methoden nötig. Zudem könnten Halluzinationen der Modelle zu Fehleinschätzungen der Trainer führen und die Technik auch von Angreifern genutzt werden, um Schwachstellen in Software zu finden.

Das Unternehmen sieht in CriticGPT dennoch einen vielversprechenden Ansatz, um Menschen bei der Erstellung besserer RLHF-Daten für Sprachmodelle zu unterstützen. Den Forschern zufolge ist die Arbeit aber auch ein Schritt in Richtung "scalable Oversight" - Methoden, mit denen Menschen den Output immer leistungsfähigerer KI-Systeme besser einschätzen können. "Von diesem Punkt an wird die Intelligenz von LLMs und LLM-Kritikern nur noch weiter wachsen. Die menschliche Intelligenz wird dies nicht tun", schreiben sie. "Es ist daher von entscheidender Bedeutung, skalierbare Methoden zu finden, die sicherstellen, dass wir das richtige Verhalten unserer KI-Systeme belohnen, selbst wenn sie viel klüger werden als wir. Wir glauben, dass die LLM-Kritiker ein vielversprechender Anfang sind."

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI hat KI-Modelle namens "CriticGPT" entwickelt, die auf GPT-4 basieren und darauf trainiert wurden, Fehler in den Ausgaben von Sprachmodellen wie ChatGPT zu erkennen. Ziel ist es, menschliche Trainer bei der Bewertung von KI-Antworten im Rahmen des Reinforcement Learning from Human Feedback (RLHF) zu unterstützen.
  • In Tests bevorzugten die KI-Trainer in 63 Prozent der Fälle die Kritik von CriticGPT gegenüber der Kritik von ChatGPT bei natürlich auftretenden Fehlern. Die Kombination von Mensch und CriticGPT führte zu einer umfassenderen Kritik als der Mensch allein und zu weniger Halluzinationen als das Modell allein.
  • OpenAI sieht in CriticGPT einen vielversprechenden Ansatz, um Menschen bei der Erstellung besserer RLHF-Daten für Sprachmodelle zu unterstützen. Die Forscher betrachten die Arbeit auch als Schritt in Richtung "scalable Oversight" - Methoden, mit denen Menschen den Output immer leistungsfähigerer KI-Systeme besser einschätzen können, selbst wenn diese viel intelligenter werden als Menschen.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!