Prompt2Model automatisiert die Generierung maßgeschneiderter Sprachmodelle, die in einigen Fällen GPT-3.5 Turbo übertreffen können und dabei bis zu 700-mal kleiner sind.
Forschende der Carnegie Mellon University und der Tsinghua University haben ein neues System namens Prompt2Model entwickelt, das benutzerdefinierte Sprachmodelle aus Prompts generieren kann. Das System soll die Entwicklung spezialisierter KI-Modelle auch für Nicht-Experten zugänglich machen. Prompt2Model versteht sich nicht als GPT-4-Alternative, sondern als automatisierte Pipeline für "special purpose NLP models", die eine bestimmte Aufgabe sehr gut erledigen, deutlich kleiner sind als große Modelle und daher auch auf schwächerer Hardware lokal laufen können.
Das System zerlegt zunächst den Prompt in eine strukturierte Anweisung. Dann sucht es nach Datensätzen, die für die gestellte Aufgabe hilfreich sein könnten, und erzeugt mit OpenAIs GPT-3.5 Turbo weitere synthetische Trainingsdaten, die auf die Aufgabe zugeschnitten sind. Anschließend wird ein geeignetes vortrainiertes Modell für die Feinabstimmung des Hugging Face identifiziert und mit den gesammelten Daten trainiert.
Nach dem Training kann Prompt2Model eine Webschnittstelle zur Interaktion mit dem Modell erstellen. Das modulare Design ermöglicht die Anpassung jeder Pipeline-Komponente.
Prompt2Model zeigt vielversprechende Ergebnisse
Das Team evaluierte die Ergebnisse von Prompt2Model in drei Benchmarks. In zwei Aufgaben (SQuAD, Temporal) übertrafen die resultierenden Flan-T5-Modelle sogar GPT-3.5 Turbo, obwohl das Google-Modell fast 700-mal weniger Parameter hat. Im dritten Benchmark (MCoNaLa) lag Prompt2Model jedoch deutlich hinter dem OpenAI-Modell.
Prompt2Model hat nach Angaben des Teams Schwierigkeiten bei der Unterstützung von Aufgaben, die andere Sprachen als Englisch erfordern. Als Grund nannte das Team die eingeschränkte Sprachunterstützung von GPT-3.5-Turbo.
Die Tatsache, dass das Team das OpenAI-Modell zur Datengenerierung verwendet, ist wahrscheinlich auch die größte Einschränkung von Prompt2Model, da OpenAI die Verwendung ihrer eigenen Modelle verbietet, um Modelle zu trainieren, die mit ihnen konkurrieren könnten, was Prompt2Model für kommerzielle Anwendungen unbrauchbar macht. Das Team untersucht jedoch die Integration großer Open-Source-Sprachmodelle, um die Abhängigkeit von proprietären APIs zu umgehen.
Mehr Informationen und den Code gibt es auf GitHub.