Inhalt
summary Zusammenfassung
Update
  • OpenAIs Reaktion auf die Forschung ergänzt

Eine Studie untersucht, wie sich das Verhalten von ChatGPT zwischen März und Juni verändert hat und stellt teilweise deutliche Veränderungen fest - nicht zum Guten.

Forschende der Stanford University und der UC Berkeley haben die Leistung einer älteren und einer neueren Version von GPT-3.5 und GPT-4 bei vier verschiedenen Aufgaben bewertet:

  1. Lösen mathematischer Probleme
  2. Beantworten heikler/gefährlicher Fragen
  3. Generieren von Code
  4. visuelles Denken

Die Studie zeigt, dass sich die Leistung und das Verhalten der beiden Versionen zum Teil dramatisch unterscheiden. So ist GPT-4 (März 2023) in der Lage, Primzahlen mit einer Genauigkeit von 97,6 % zu erkennen, während GPT-4 (Juni 2023) versagt (Genauigkeit 2,4 %) und den Chain-of-Thought-Prompt ignoriert. GPT-3.5 (Juni 2023) hingegen ist bei dieser Aufgabe deutlich besser als GPT-3.5 (März 2023).

GPT-4 generiert im Juni deutlich weniger direkt ausführbaren Code

Auch bei der direkten Ausführbarkeit des Codes ist ein deutlicher Rückgang zu verzeichnen: Bei GPT-4 sank der Anteil der direkt ausführbaren Generationen von 52 % im März auf 10 % im Juni. Auch bei GPT-3.5 war der Rückgang stark (von 22 % auf 2 %). Der Grund: Im März folgten sowohl GPT-4 als auch GPT-3.5 der Benutzeranweisung ("nur den Code") und erzeugten somit direkt ausführbare Generierungen.

Anzeige
Anzeige

Im Juni fügten sie jedoch zusätzliche dreifache Anführungszeichen vor und nach dem Code ein, wodurch der Code nicht mehr ausführbar war. Die Qualität des generierten Codes scheint auf einem ähnlichen Niveau zu sein, aber das Team hat keinen detaillierten Vergleich durchgeführt.

Das Team zeigt auch, dass GPT-4 im Juni weniger heikle Fragen beantwortet und bei Aufgaben zum visuellen Schlussfolgern etwas besser abschneidet - aber im Juni Fehler macht, die das März-Modell nicht macht. Auch für GPT-3.5 stellen die Forschenden eine leichte Verbesserung fest.

Team empfiehlt Unternehmen GPT-4-Fähigkeiten zu überwachen

Ist GPT-4 nun schlechter als im März? Die Arbeit gibt keine klare Antwort auf diese Frage, aber sie scheint zu zeigen, dass die Juni-Version Fehler enthält, die in der älteren Version nicht vorhanden waren.

"Unsere Ergebnisse zeigen, dass sich das Verhalten von GPT-3.5 und GPT-4 in relativ kurzer Zeit erheblich verändert hat", so die Forschenden. Dies unterstreiche die Notwendigkeit, das Verhalten von Sprachmodellen in produktiven Anwendungen kontinuierlich zu evaluieren.

Ob es sich bei diesen Änderungen um Bugs handelt, wie Peter Welinder, VP Product bei OpenAI, in einem ähnlichen Beispiel andeutete, oder um Hinweise auf einen generellen Qualitätsabfall, der auf Modell- oder anderen Optimierungen beruht, die OpenAI aus Kostengründen vorgenommen hat, bleibt unklar - und das ist ein Problem, weil es für die Kund:innen von OpenAI undurchsichtig ist.

Empfehlung

Daher empfiehlt das Team denjenigen, die Sprachmodelldienste als Teil ihrer Arbeitsabläufe nutzen, eine Überwachungsanalyse für ihre Anwendungen zu implementieren, die auf der vorgestellten Forschung basiert. Um diesen Prozess und die weitere Erforschung von "Sprachmodell-Driften" zu unterstützen, veröffentlicht das Team die Evaluation und die ChatGPT-Daten auf GitHub.

OpenAI reagiert auf die Forschung und "untersucht die Angelegenheit".

Als Reaktion auf die Forschung sagte Logan Kilpatrick, der derzeit Leiter der Entwicklerbeziehungen bei OpenAI ist, dass das Unternehmen sich der gemeldeten Regressionen bewusst ist und sie untersucht. Er forderte außerdem ein öffentliches OpenAI-Evaluation-Set, um gegen bekannte Regressionsfälle zu testen, wenn neue Modelle veröffentlicht werden.

In einem separaten Beitrag dankte er allen, die ihre Erfahrungen mit der Leistung des GPT-4-Modells gemeldet haben. Damit scheint das Unternehmen seine Kommunikation zu ändern, nach Aussagen von Mitarbeitern von OpenAI, dass sich nichts geändert hätte, und Welinder seine Hypothese äußerte, dass "wenn man das Programm intensiver nutzt, man Probleme bemerken wird, die man vorher nicht gesehen hat."

Der Markt für generative KI benötigt Qualitätskontrolle

Die Probleme von OpenAI mit GPT-4 sind nicht einzigartig für das Unternehmen. Jedes Unternehmen, das KI-Modelle anbietet und regelmäßig aktualisiert, könnte zögern, Änderungen zu kommunizieren, wenn sich diese nicht direkt in Leistungsverbesserungen oder Kosteneinsparungen für seine Kunden niederschlagen - und in vielen Fällen könnten die Unternehmen Regressionen in den Modellen erst nach der Veröffentlichung bemerken. Auch für Midjourney gibt es zahlreiche Nutzermeinungen, die etwa für die Version 5.1 von Leistungseinbußen berichten. Diese Vorwürfe weisen die auch von GPT-4 bekannte Struktur von persönlichen Erfahrungsberichten und Spekulationen auf - ob sie stimmen, ist unklar.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

All dies zeigt, wie neu und komplex der Markt für generative KI-Produkte ist. In der Zukunft könnten Evaluierungen wie die, die Kilpatrick erstellen möchte, dazu beitragen, von anekdotischen Beweisen zu klaren Benchmarks überzugehen.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie zeigt Performanceänderungen in älteren und neueren Versionen von GPT-3.5 und GPT-4 bei vier verschiedenen Aufgaben, wie das Lösen mathematischer Probleme und Generieren von Code.
  • Die Studie zeigt zum Teil dramatische Unterschiede im Verhalten und in den Fähigkeiten der Modelle.
  • Die Forschenden betonen die Notwendigkeit, das Verhalten von Sprachmodellen in produktiven Anwendungen kontinuierlich zu evaluieren und empfehlen Implementierung einer Überwachungsanalyse für Unternehmen, die Sprachmodelldienste nutzen.
  • Logan Kilpatrick, Leiter der Entwicklerbeziehungen bei OpenAI, bestätigte die gemeldeten Regressionen und forderte ein öffentliches OpenAI-Evaluierungsset, um bekannte Regressionsfälle zu testen, sobald neue Modelle veröffentlicht werden.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!