- OpenAIs Reaktion auf die Forschung ergänzt
Eine Studie untersucht, wie sich das Verhalten von ChatGPT zwischen März und Juni verändert hat und stellt teilweise deutliche Veränderungen fest - nicht zum Guten.
Forschende der Stanford University und der UC Berkeley haben die Leistung einer älteren und einer neueren Version von GPT-3.5 und GPT-4 bei vier verschiedenen Aufgaben bewertet:
- Lösen mathematischer Probleme
- Beantworten heikler/gefährlicher Fragen
- Generieren von Code
- visuelles Denken
Die Studie zeigt, dass sich die Leistung und das Verhalten der beiden Versionen zum Teil dramatisch unterscheiden. So ist GPT-4 (März 2023) in der Lage, Primzahlen mit einer Genauigkeit von 97,6 % zu erkennen, während GPT-4 (Juni 2023) versagt (Genauigkeit 2,4 %) und den Chain-of-Thought-Prompt ignoriert. GPT-3.5 (Juni 2023) hingegen ist bei dieser Aufgabe deutlich besser als GPT-3.5 (März 2023).
GPT-4 generiert im Juni deutlich weniger direkt ausführbaren Code
Auch bei der direkten Ausführbarkeit des Codes ist ein deutlicher Rückgang zu verzeichnen: Bei GPT-4 sank der Anteil der direkt ausführbaren Generationen von 52 % im März auf 10 % im Juni. Auch bei GPT-3.5 war der Rückgang stark (von 22 % auf 2 %). Der Grund: Im März folgten sowohl GPT-4 als auch GPT-3.5 der Benutzeranweisung ("nur den Code") und erzeugten somit direkt ausführbare Generierungen.
Im Juni fügten sie jedoch zusätzliche dreifache Anführungszeichen vor und nach dem Code ein, wodurch der Code nicht mehr ausführbar war. Die Qualität des generierten Codes scheint auf einem ähnlichen Niveau zu sein, aber das Team hat keinen detaillierten Vergleich durchgeführt.
Das Team zeigt auch, dass GPT-4 im Juni weniger heikle Fragen beantwortet und bei Aufgaben zum visuellen Schlussfolgern etwas besser abschneidet - aber im Juni Fehler macht, die das März-Modell nicht macht. Auch für GPT-3.5 stellen die Forschenden eine leichte Verbesserung fest.
Team empfiehlt Unternehmen GPT-4-Fähigkeiten zu überwachen
Ist GPT-4 nun schlechter als im März? Die Arbeit gibt keine klare Antwort auf diese Frage, aber sie scheint zu zeigen, dass die Juni-Version Fehler enthält, die in der älteren Version nicht vorhanden waren.
"Unsere Ergebnisse zeigen, dass sich das Verhalten von GPT-3.5 und GPT-4 in relativ kurzer Zeit erheblich verändert hat", so die Forschenden. Dies unterstreiche die Notwendigkeit, das Verhalten von Sprachmodellen in produktiven Anwendungen kontinuierlich zu evaluieren.
Ob es sich bei diesen Änderungen um Bugs handelt, wie Peter Welinder, VP Product bei OpenAI, in einem ähnlichen Beispiel andeutete, oder um Hinweise auf einen generellen Qualitätsabfall, der auf Modell- oder anderen Optimierungen beruht, die OpenAI aus Kostengründen vorgenommen hat, bleibt unklar - und das ist ein Problem, weil es für die Kund:innen von OpenAI undurchsichtig ist.
Daher empfiehlt das Team denjenigen, die Sprachmodelldienste als Teil ihrer Arbeitsabläufe nutzen, eine Überwachungsanalyse für ihre Anwendungen zu implementieren, die auf der vorgestellten Forschung basiert. Um diesen Prozess und die weitere Erforschung von "Sprachmodell-Driften" zu unterstützen, veröffentlicht das Team die Evaluation und die ChatGPT-Daten auf GitHub.
OpenAI reagiert auf die Forschung und "untersucht die Angelegenheit".
Als Reaktion auf die Forschung sagte Logan Kilpatrick, der derzeit Leiter der Entwicklerbeziehungen bei OpenAI ist, dass das Unternehmen sich der gemeldeten Regressionen bewusst ist und sie untersucht. Er forderte außerdem ein öffentliches OpenAI-Evaluation-Set, um gegen bekannte Regressionsfälle zu testen, wenn neue Modelle veröffentlicht werden.
Thanks for taking the time to do this research! The team is aware of the reported regressions and looking into it.
Side note: it would be cool for research like this to have a public OpenAI eval set. That way, as new models come online, we can test against these known…
— Logan.GPT (@OfficialLoganK) July 19, 2023
In einem separaten Beitrag dankte er allen, die ihre Erfahrungen mit der Leistung des GPT-4-Modells gemeldet haben. Damit scheint das Unternehmen seine Kommunikation zu ändern, nach Aussagen von Mitarbeitern von OpenAI, dass sich nichts geändert hätte, und Welinder seine Hypothese äußerte, dass "wenn man das Programm intensiver nutzt, man Probleme bemerken wird, die man vorher nicht gesehen hat."
Der Markt für generative KI benötigt Qualitätskontrolle
Die Probleme von OpenAI mit GPT-4 sind nicht einzigartig für das Unternehmen. Jedes Unternehmen, das KI-Modelle anbietet und regelmäßig aktualisiert, könnte zögern, Änderungen zu kommunizieren, wenn sich diese nicht direkt in Leistungsverbesserungen oder Kosteneinsparungen für seine Kunden niederschlagen - und in vielen Fällen könnten die Unternehmen Regressionen in den Modellen erst nach der Veröffentlichung bemerken. Auch für Midjourney gibt es zahlreiche Nutzermeinungen, die etwa für die Version 5.1 von Leistungseinbußen berichten. Diese Vorwürfe weisen die auch von GPT-4 bekannte Struktur von persönlichen Erfahrungsberichten und Spekulationen auf - ob sie stimmen, ist unklar.
All dies zeigt, wie neu und komplex der Markt für generative KI-Produkte ist. In der Zukunft könnten Evaluierungen wie die, die Kilpatrick erstellen möchte, dazu beitragen, von anekdotischen Beweisen zu klaren Benchmarks überzugehen.