Eine neue Untersuchung zeigt, dass der Leistungszuwachs großer Sprachmodelle in den letzten Jahren wohl maßgeblich auf das Phänomen der Task Contamination zurückzuführen ist.
Forscher der University of California, Santa Cruz, zeigen in einer neuen Arbeit die möglichen Auswirkungen von Task Contamination auf die Leistung großer Sprachmodelle wie GPT-3 in Zero-Shot- und Few-Shot-Aufgaben.
Task Contamination bezeichnet ein Phänomen, bei dem ein KI-Modell während des Trainings mit Beispielen oder Daten konfrontiert wird, die später als Teil von Test- oder Evaluationsaufgaben verwendet werden. Dies kann die Ergebnisse von Zero-Shot oder Few-Shot Evaluationen verfälschen, da das Modell nicht wirklich "blind" für die Aufgaben ist - es hat ähnliche oder identische Aufgaben bereits während des Trainings gesehen.
In der Praxis kann das Modell dann bei bestimmten Aufgaben besser abschneiden, nicht weil es tatsächlich in der Lage ist, aus wenigen oder keinen Beispielen zu lernen (wie es bei echter Zero-Shot- oder Few-Shot-Lernfähigkeit der Fall wäre), sondern weil es bereits während des Trainings mit ähnlichen Beispielen konfrontiert wurde. Task Contamination stellt somit die Fähigkeit des Modells in Frage, mit neuen, unbekannten Aufgaben umzugehen, und kann zu einer Überschätzung seiner Leistungsfähigkeit führen.
Umfassende Untersuchung deckt Task Contamination in Sprachmodellen auf
Das Team untersuchte verschiedene Varianten der GPT-3-Modellreihe, einschließlich GPT-3.5-Turbo, sowie mehrere offene Sprachmodelle wie Metas Llama, Bloom, Alpaca oder Vicuna.
Die Forscher fanden heraus, dass die Leistung bei Datensätzen, die vor dem Datum der Trainingsdatenerhebung veröffentlicht wurden, signifikant besser war als bei neueren Datensätzen. Dies deutet stark auf eine Kontamination durch die Aufgabe hin.
Die Untersuchung umfasste auch die Analyse von Trainingsdaten offener Modelle und eine Membership Inference Attack. Bei der Untersuchung der Trainingsdaten und der Extraktion von Aufgabenbeispielen aus den Modellen fanden die Forscher weitere Hinweise auf Task Contamination: Die Methoden zeigten, dass bestimmte Aufgabenbeispiele in den Trainingsdaten vorkamen, die die Bewertung der Zero- und Few-Shot-Fähigkeiten der Modelle verfälschen könnten.
Mit der sogenannten Membership Inference Attack überprüfte das Team auch, ob die von den Modellen generierten Inhalte exakt mit Beispielen aus dem Datensatz übereinstimmten. Ein hoher Grad an Übereinstimmung deutet auf eine Kontamination des Modells hin - auch hier fand das Team Hinweise auf Task Contamination.
Das Team hat GPT-4 noch nicht untersucht, weist aber darauf hin, dass das Problem der Aufgabenkontamination durch Reinforcement Learning mit menschlichem Feedback wahrscheinlich noch größer ist.
Task Contamination als treibende Kraft für bessere Sprachmodellleistung?
Zusammenfassend sei festzustellen, dass insbesondere geschlossene Modelle wie GPT-3.5-Turbo bei der Bewertung von Zero- und Few-Shot-Aufgaben aufgrund von Task-Contamination eine überhöhte Leistung zeigen können. In Experimenten mit Klassifikationsaufgaben ohne nachweisbare Task Contamination zeigen die Sprachmodelle laut dem Team zudem selten signifikante Verbesserungen gegenüber einfachen Baselines, sowohl in Zero- als auch in Few-Shot-Szenarien.
Der beobachtete zeitliche Leistungszuwachs von GPT-3 Modellen von davinci zu GPT-3.5-Turbo in ähnlichen Aufgaben sei wahrscheinlich ebenfalls auf Task Contamination zurückzuführen. Die Überprüfung von Trainingsdaten auf solche Kontaminationen bleibe jedoch eine Herausforderung, speziell bei Modellen mit geschlossenem Quellcode, da oft unklar sei, welche Daten verwendet wurden und das Modell nicht unbedingt Hinweise auf Kontaminationen liefere.
Das Team empfiehlt daher die Veröffentlichung von Trainingsdatensätzen, um die Diagnose und das Verständnis von Kontaminationsproblemen zu verbessern. Eine transparente Veröffentlichung der Trainingsdaten würde die Identifizierung von Kontaminationen erleichtern und zur Entwicklung robusterer und zuverlässigerer Sprachmodelle beitragen.