Das Forschungslabor CarperAI plant die Veröffentlichung eines großen Sprachmodells auf GPT-3-Niveau, das mit menschlichem Feedback trainiert wurde.
CarperAI will gemeinsam mit den Partnern EleutherAI, Scale AI, Multi, Humanloop und Hugging Face ein Chinchilla-optimal-basiertes großes Sprachmodell veröffentlichen. Das Modell soll explizit darauf trainiert sein, menschlichen Instruktionen besser zu folgen und wird als Open Source veröffentlicht.
"Die Open-Source-Veröffentlichung ist von entscheidender Bedeutung, um Akademikern, unabhängigen Forschern und Start-ups die Möglichkeit zu geben, Wissenschaft zu betreiben und auf modernen Modellen aufzubauen", schreibt das Team.
Instruct-GPT: Erstes Open-Source-KI-Modell, das mit menschlichem Feedback trainiert wurde
Für das Training setzte CarperAI auf bestärkendes Lernen mit menschlichem Feedback, eine Methode, die unter anderem OpenAI bei GPT-3 für InstructGPT-Modelle einsetzt, auf menschliche Bedürfnisse optimierte Derivate aus dem großen KI-Modell GPT-3.
Menschen bewerten die Ausgaben dieser Modelle besser, obwohl die Modelle selbst deutlich kleiner und damit effizienter im Betrieb sind. OpenAI sieht menschliches Feedback im KI-Trainingsprozess als wichtigen Sicherheitsbaustein beim KI-Alignment. Auch Deepmind setzt die Technik ein.
CarperAI und Partner sehen das Training mit menschlichem Feedback ebenso als wesentlichen Schritt für die Implementierung großer Sprachmodell im Alltag.
"Die Risiken von LLMs sind gut dokumentiert und reichen von der Verbreitung von Fehlinformationen bis zur Verstärkung sozialer Vorurteile. Im Vergleich zu Standard-Sprachmodellen reduziert das Training mit RLHF diese Risiken drastisch und erhöht gleichzeitig die Nützlichkeit des Modells", schreibt das Kollektiv.
CarperAI ist ein Labor des Forschungskollektivs EleutherAI, das zuvor schon große Sprachmodelle veröffentlichte, zuletzt GPT-NeoX-20B, das in einigen Benchmarks an GPT-3 heranreicht. Das Team sucht Freiwillige, die das Instruct-GPT-Projekt unterstützen wollen. Weitere Informationen gibt es auf der Projektwebseite, im Discord-Channel und bei Github.