Bei der Skalierung von KI-Systemen wird oft über die Größe der Modelle und die Menge der Daten gesprochen. Dabei ist ein dritter Punkt mindestens genauso wichtig: die Qualität der Daten.
Mit dem Transformer-basierten und für Code optimierten Sprachmodell phi-1 untersuchen Forschende von Microsoft, wie leistungsfähig ein kleines Sprachmodell für Code sein kann, das mit besonders hochwertigen Daten trainiert wurde.
Für das Training der KI haben die Forschenden nach eigenen Angaben nur Daten in "Lehrbuchqualität" verwendet. Aus den Datensätzen "The Stack" und "StackOverflow" filterten sie über einen Klassifikator, der mit einem großen Sprachmodell erstellt wurde, sechs Milliarden hochwertige Trainings-Token für Code heraus. Eine weitere Milliarde Token generierte das Team mit GPT 3.5.
Das Training dauerte nur etwa vier Tage auf acht Nvidia A100-Grafikkarten.
Phi-1 schlägt deutlich größere Modelle in Benchmarks
Das größte kleine Modell phi-1, das zusätzlich mit Codeaufgaben verfeinert wurde, schlägt mit nur 1,3 Milliarden Parametern in den Benchmarks HumanEval und MBPP Modelle, die 10x größer sind und 100x mehr Daten für das Training verwenden. Nur GPT-4 übertrifft phi-1 in den Testszenarien.
Die Ergebnisse übertrafen die Erwartungen der Forscherinnen und Forscher. Das Team führt sie direkt auf die Datenqualität zurück, wie bereits der Titel der Arbeit verrät: "Textbooks is all you need", in Anlehnung an die Google-Forschungsarbeit zum Transformer-Durchbruch ("Attention is all you need").
Phi-1 hat aber auch einige Einschränkungen im Vergleich zu größeren Modellen. Die Spezialisierung auf die Programmierung in Python schränkt seine Vielseitigkeit ein, es fehlt domänenspezifisches Wissen größerer LLMs, wie z.B. die Programmierung mit spezifischen APIs, und die strukturierte Natur von Phi-1 macht es weniger robust gegenüber stilistischen Variationen oder Eingabefehlern in den Prompts.
Weitere Verbesserungen der Modellleistung wären möglich, wenn die synthetischen Daten mit GPT-4 anstelle von GPT-3.5 erzeugt würden, das eine hohe Fehlerrate aufweist. Das Team betont jedoch, dass das Modell trotz der vielen Fehler in der Lage war, effektiv zu lernen und korrekten Code zu erzeugen. Dies deutet darauf hin, dass nützliche Muster oder Darstellungen auch aus fehlerhaften Daten extrahiert werden können.
Experten-Modelle mit Fokus auf Datenqualität
Die Forschenden sehen die Hypothese bestätigt, dass eine hohe Datenqualität für das KI-Training entscheidend ist. Die Zusammenstellung der Daten sei jedoch eine Herausforderung, insbesondere im Hinblick auf Ausgewogenheit, Vielfalt und zu vermeidende Wiederholungen. Gerade für die letzten beiden Punkte fehlten Messmethoden. Phi-1 soll demnächst bei Hugging Face als Open Source veröffentlicht werden.
So wie ein umfassendes, gut geschriebenes Lehrbuch einem Studenten das nötige Wissen vermitteln kann, um ein neues Thema zu beherrschen, so zeigt unsere Arbeit die bemerkenswerte Wirkung ein neues Fach zu beherrschen, zeigt unsere Arbeit die bemerkenswerte Wirkung hochwertiger Daten bei der Verbesserung der Sprachmodells bei der Code-Generierung.
Aus dem Paper
Andrej Karpathy, ehemaliger KI-Chef von Tesla, mittlerweile wieder bei OpenAI, teilt die Einschätzung insofern, dass er in Zukunft mehr "kleine und hochgradig leistungsfähige Expertenmodelle" erwartet. Für diese KI-Modelle würde Datenqualität priorisiert, Diversität über Quantität gestellt und ergänzend synthetische Daten generiert.