Inhalt
summary Zusammenfassung

Sprachmodelle werden gefühlt schlechter, Nutzer:innen beschweren sich öffentlich, Hersteller widersprechen den Behauptungen - dieses Muster wiederholt sich. Und das wird sich wohl auch nicht ändern, wenn die Technologie so bleibt, wie sie ist.

Anzeige

Berichten von Nutzer:innen zufolge ist Anthropics Chatbot Claude "in letzter Zeit absolut verdummt". Das behauptet zumindest ein Reddit-Poster, der sein Erlebnis in einem Beitrag recht emotional beschreibt.

Dafür erhielt er viel Zustimmung aus der Community, die offenbar ähnliche Erfahrungen machen musste. War die Ausgabe des Chatbots zuvor mehr als zufriedenstellend, haben die jüngsten Entwicklungen den Original-Poster sogar dazu gebracht, sein Abonnement zu kündigen.

Irgendetwas geht in der Web-UI vor sich, und ich habe es satt, dass man mich immer wieder gaslightet und mir sagt, dass es nicht so ist. Jemand von Anthropic muss das untersuchen, weil zu viele Leute in den Kommentaren mit mir übereinstimmen.

u/NextgenAITrading auf Reddit

Konkret beschwert er sich darüber, dass Claude sein eigentliches Ziel innerhalb von zwei Sätzen vergesse und selbst simple Coding-Aufgaben nicht bewältigen könne.

Anzeige
Anzeige
Bild: Reddit/Screenshot by THE DECODER

Mittlerweile ist die Feedbackwelle bei Anthropic angekommen. Alex Albert, verantwortlich für die Beziehungen zu Entwickler:innen, antwortet mit einem weiteren Reddit-Beitrag. Darin widerspricht er der These, dass sie Änderungen an den Modellen vorgenommen haben.

Wir haben auch gehört, dass einige Nutzer die Antworten von Claude weniger hilfreich finden als sonst. Unsere erste Untersuchung hat keine weit verbreiteten Probleme ergeben. Wir möchten außerdem bestätigen, dass wir keine Änderungen am 3.5-Sonnet-Modell oder an der Inferenzpipeline vorgenommen haben.

Alex Albert, Developer Relations bei Anthropic

Anthropic dokumentiert jetzt Systemprompt

Gründe für die "gefühlte Verdummung" könnten unter anderem in Änderungen am Systemprompt liegen. Diese Nachricht wird jeder Nutzer:innenanfrage bei Zugriff per Chatbot über die Website (und nicht per API) vorangestellt.

Anthropic hat in seinem Bestreben für mehr Transparenz auf seiner Website nun einen Bereich eingerichtet, in dem sie die (seit dem 12. Juli 2024) aktuellen Systemprompts für Claude 3.5 Sonnet, Claude 3 Opus und Claude 3 Haiku veröffentlichen. Zumindest seit diesem Zeitpunkt kann der Systemprompt also nicht für eine Leistungsabnahme verantwortlich gemacht werden.

Bereits zahlreiche Beschwerden über Claude im April

Tatsächlich ist das nicht das erste Mal, dass Stimmen über die angeblich abnehmende Leistung von Claude laut werden. Bereits im April 2024 sammelte ein Reddit-Nutzer zahlreiche Beschwerden, in denen Nutzer:innen unzufriedenstellende Momente beschreiben.

Bild: Reddit/Screenshot by THE DECODER

Auch damals reagierte Anthropic, jedoch ähnlich vorsichtig: Modelländerungen habe es keine gegeben und die identische Software laufe gleichzeitig auf Tausenden Servern, um die verschiedenen Instanzen von Claude anzubieten. Wer "fehlerhafte Antworten" erhalte, solle diese per Daumen-Voting als schlecht bewerten.

Empfehlung

Inzwischen berichten manche Nutzer:innen, dass sich die Leistung wieder auf dem alten Niveau eingependelt habe. Mögliche Erklärung für die negativen Erlebnisse könnte auch technischer Natur gewesen sein. Anfang August verzeichnete Google Cloud im Zusammenhang mit Claude 3.5 Sonnet und Claude 3 Opus Ausfälle bei seiner KI-Plattform Vertex AI.

Geschichte wiederholt sich

Claude ist nicht der einzige Chatbot, dem vorgeworfen wurde, immer schlechtere Ergebnisse zu liefern. Ein ähnliches Schicksal ereilte auch ChatGPT in der zweiten Jahreshälfte 2023, damals hauptsächlich von GPT-4 und GPT-4 Turbo angetrieben. Auch heute noch tauchen solche Beschwerden immer wieder mal auf, etwa für GPT-4o.

Insgesamt ist es ein wiederkehrendes Muster, dass Nutzer:innen einige Zeit nach der Veröffentlichung eines Modells über Performanceeinbußen klagen und die Hersteller kurz darauf die Berichte dementieren. Es ist davon auszugehen, dass sich dies auch in Zukunft und bei anderen Modellen wiederholen wird.

Ein möglicher Grund dafür könnte auch sein, dass sich die Menschen an die Fähigkeiten des Sprachmodells gewöhnen, die Erwartungen jedoch größer werden als das Modell zum jeweiligen Zeitpunkt liefern kann.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Als ChatGPT im November 2022 auf Basis von GPT-3.5 an den Start ging, beeindruckte das viele in den ersten Momenten. Mittlerweile sieht GPT-3.5 verglichen mit GPT-40 und anderen Modellen auf dem Niveau wortwörtlich alt aus.

Weitere mögliche Gründe sind schlicht die der Technologie zugrunde liegende Variabilität in der Generierung, eventuell temporäre Engpässe in der Rechenleistung oder schlicht fehlerhafte Verarbeitung.

Auch wir machen in unserer täglichen Arbeit immer wieder die Erfahrung, dass ein Prompt, der zuverlässig funktioniert, in einem von zehn Fällen ein Ergebnis liefert, das weit unter dem normalen Leistungsniveau liegt. Eine erneute Generierung reicht dann meist aus, um die gewohnte Qualität zu erreichen.

OpenAI kommentierte die Faulheitsvorwürfe gegen GPT-4 seinerzeit damit, dass das Verhalten von KI-Modellen unvorhersehbar sein könne. Das Training der KI, die Abstimmung der Modelle und die Evaluierung seien "handwerkliche Teamarbeit" und kein "sauberer industrieller Prozess". Zudem könne ein Modellupdate die Leistung in einigen Bereichen verbessern, in anderen aber verschlechtern.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Nutzer:innen berichten erneut über eine anscheinend nachlassende Leistung von Anthropics Chatbot Claude. Insbesondere ein Reddit-Nutzer beklagt, dass der Bot sein Ziel innerhalb von zwei Sätzen vergesse und selbst einfache Programmieraufgaben nicht mehr bewältigen könne.
  • Anthropic widerspricht den Behauptungen und erklärt, dass keine Änderungen an den Modellen vorgenommen wurden. Das Unternehmen hat jedoch begonnen, die aktuellen Systemprompts für mehr Transparenz zu dokumentieren. Möglicherweise könnten auch technische Probleme bei Google Cloud eine Rolle gespielt haben.
  • Es scheint sich um ein wiederkehrendes Muster zu handeln, dass Nutzer:innen einige Zeit nach Veröffentlichung eines Modells über Leistungseinbußen klagen und die Hersteller dies dementieren. Ein Grund könnte sein, dass sich die Erwartungen der Nutzer:innen mit der Zeit erhöhen, während die Modelle nicht im gleichen Maße Schritt halten.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!