Inhalt
summary Zusammenfassung

Bei der Skalierung von KI-Systemen wird oft über die Größe der Modelle und die Menge der Daten gesprochen. Dabei ist ein dritter Punkt mindestens genauso wichtig: die Qualität der Daten.

Anzeige

Mit dem Transformer-basierten und für Code optimierten Sprachmodell phi-1 untersuchen Forschende von Microsoft, wie leistungsfähig ein kleines Sprachmodell für Code sein kann, das mit besonders hochwertigen Daten trainiert wurde.

Für das Training der KI haben die Forschenden nach eigenen Angaben nur Daten in "Lehrbuchqualität" verwendet. Aus den Datensätzen "The Stack" und "StackOverflow" filterten sie über einen Klassifikator, der mit einem großen Sprachmodell erstellt wurde, sechs Milliarden hochwertige Trainings-Token für Code heraus. Eine weitere Milliarde Token generierte das Team mit GPT 3.5.

Das Training dauerte nur etwa vier Tage auf acht Nvidia A100-Grafikkarten.

Anzeige
Anzeige

Phi-1 schlägt deutlich größere Modelle in Benchmarks

Das größte kleine Modell phi-1, das zusätzlich mit Codeaufgaben verfeinert wurde, schlägt mit nur 1,3 Milliarden Parametern in den Benchmarks HumanEval und MBPP Modelle, die 10x größer sind und 100x mehr Daten für das Training verwenden. Nur GPT-4 übertrifft phi-1 in den Testszenarien.

Phi-1 Benchmarks. | Bild: Microsoft

Die Ergebnisse übertrafen die Erwartungen der Forscherinnen und Forscher. Das Team führt sie direkt auf die Datenqualität zurück, wie bereits der Titel der Arbeit verrät: "Textbooks is all you need", in Anlehnung an die Google-Forschungsarbeit zum Transformer-Durchbruch ("Attention is all you need").

Phi-1 hat aber auch einige Einschränkungen im Vergleich zu größeren Modellen. Die Spezialisierung auf die Programmierung in Python schränkt seine Vielseitigkeit ein, es fehlt domänenspezifisches Wissen größerer LLMs, wie z.B. die Programmierung mit spezifischen APIs, und die strukturierte Natur von Phi-1 macht es weniger robust gegenüber stilistischen Variationen oder Eingabefehlern in den Prompts.

Weitere Verbesserungen der Modellleistung wären möglich, wenn die synthetischen Daten mit GPT-4 anstelle von GPT-3.5 erzeugt würden, das eine hohe Fehlerrate aufweist. Das Team betont jedoch, dass das Modell trotz der vielen Fehler in der Lage war, effektiv zu lernen und korrekten Code zu erzeugen. Dies deutet darauf hin, dass nützliche Muster oder Darstellungen auch aus fehlerhaften Daten extrahiert werden können.

Experten-Modelle mit Fokus auf Datenqualität

Die Forschenden sehen die Hypothese bestätigt, dass eine hohe Datenqualität für das KI-Training entscheidend ist. Die Zusammenstellung der Daten sei jedoch eine Herausforderung, insbesondere im Hinblick auf Ausgewogenheit, Vielfalt und zu vermeidende Wiederholungen. Gerade für die letzten beiden Punkte fehlten Messmethoden. Phi-1 soll demnächst bei Hugging Face als Open Source veröffentlicht werden.

Empfehlung

So wie ein umfassendes, gut geschriebenes Lehrbuch einem Studenten das nötige Wissen vermitteln kann, um ein neues Thema zu beherrschen, so zeigt unsere Arbeit die bemerkenswerte Wirkung ein neues Fach zu beherrschen, zeigt unsere Arbeit die bemerkenswerte Wirkung hochwertiger Daten bei der Verbesserung der Sprachmodells bei der Code-Generierung.

Aus dem Paper

Andrej Karpathy, ehemaliger KI-Chef von Tesla, mittlerweile wieder bei OpenAI, teilt die Einschätzung insofern, dass er in Zukunft mehr "kleine und hochgradig leistungsfähige Expertenmodelle" erwartet. Für diese KI-Modelle würde Datenqualität priorisiert, Diversität über Quantität gestellt und ergänzend synthetische Daten generiert.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Microsoft-Forscher entwickeln das kleinere, codeoptimierte Sprachmodell Phi-1, das größere Modelle in Benchmarks deutlich übertrifft.
  • Phi-1 wird mit "lehrbuchartigen" Qualitätsdaten trainiert und erzeugt trotz der hohen Fehlerrate in den GPT-3.5-Daten korrekten Code. Es soll in Kürze als Open Source veröffentlicht werden.
  • Trotz seiner starken Leistung hat Phi-1 einige Einschränkungen, darunter die Spezialisierung auf Python und eine geringere Robustheit gegenüber stilistischen Variationen und Eingabefehlern.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!