Anthropic-Experiment zeigt: Stärkere KI-Modelle verhandeln bessere Preise, ohne dass es jemand merkt
Kurz & Knapp
- Anthropic hat in einem einwöchigen Experiment namens "Project Deal" KI-Agenten der Claude-Familie selbstständig echte Waren für Mitarbeiter handeln lassen.
- Das stärkere Modell Claude Opus erzielte im Durchschnitt messbar bessere Preise und mehr Abschlüsse als das kleinere Modell Claude Haiku. Aggressive Verhandlungsanweisungen hatten keinen statistischen Effekt.
- Trotz der finanziellen Nachteile bewerteten die Nutzer des schwächeren Modells die Fairness ihrer Deals genauso hoch wie die Opus-Nutzer. Anthropic warnt vor dieser unsichtbaren Ungleichheit.
In einem einwöchigen Experiment ließ Anthropic Claude-Agenten im Auftrag von Mitarbeitern Waren kaufen und verkaufen. Das Ergebnis: Stärkere Modelle verhandelten bessere Deals. Das Problem: Die Benachteiligten merkten nichts davon.
Im Dezember 2025 richtete Anthropic in einem Experiment namens "Project Deal" für 69 Mitarbeiter im Büro in San Francisco einen einwöchigen Kleinanzeigen-Marktplatz ein, der über Slack lief. Sämtliche Verhandlungen und Abschlüsse übernahmen ausschließlich Claude-Agenten.
Jeder Teilnehmer erhielt ein Budget von 100 Dollar. Zuvor führte Claude ein unter zehnminütiges Interview mit jedem Freiwilligen, um herauszufinden, was sie verkaufen wollten, zu welchem Preis, was sie kaufen wollten und welchen Verhandlungsstil ihr Agent pflegen sollte. Aus diesen Antworten generierte Anthropic individuelle System-Prompts für jeden Agenten.
Danach übernahmen die KI-Agenten vollständig: Sie erstellten Anzeigen, identifizierten passende Gegenüber, machten Angebote, verhandelten Preise und schlossen ohne weitere Rückfragen Deals ab. Erst ganz am Ende tauschten die Menschen die tatsächlichen physischen Gegenstände aus, vom Snowboard bis zu einem Beutel Tischtennisbälle.
Stärkere Modelle verhandeln besser, ohne dass es auffällt
Das eigentliche Forschungsinteresse lag in einem parallelen Experiment, von dem die Teilnehmer zunächst nichts wussten. Anthropic betrieb vier unabhängige Versionen des Marktplatzes gleichzeitig. In zwei Versionen wurden alle Agenten mit Claude Opus 4.5 betrieben, dem damaligen Frontier-Modell.
In den anderen beiden hatte jeder Teilnehmer eine 50-prozentige Chance, stattdessen von Claude Haiku 4.5 vertreten zu werden, Anthropics kleinstem Modell. Auch hier verhandelten ausschließlich die KI-Agenten miteinander.

Im "echten" Durchlauf, in dem alle Agenten auf Opus basierten, schlossen die 69 Agenten 186 Deals bei über 500 gelisteten Artikeln ab, mit einem Gesamttransaktionswert von knapp über 4.000 Dollar. Die Teilnehmer bewerteten die Fairness der einzelnen Deals im Schnitt mit 4 auf einer Skala von 1 bis 7, also genau in der Mitte.
In den gemischten Durchläufen zeigte sich jedoch ein klarer Vorteil für Opus-Nutzer. Sie schlossen im Schnitt etwa zwei Deals mehr ab als Haiku-Nutzer. Wurde derselbe Artikel einmal von einem Opus-Agenten und einmal von einem Haiku-Agenten verkauft, erzielte Opus durchschnittlich 3,64 Dollar mehr.
Ein Beispiel: Ein im Labor gezüchteter Rubin ging bei Opus für 65 Dollar über den Tisch, bei Haiku nur für 35 Dollar. Der Opus-Agent startete mit einem Angebot von 60 Dollar und wurde durch Bieterkonkurrenz nach oben getrieben, während der Haiku-Agent bei 40 Dollar einstieg und sich herunterhandeln ließ.

Über 161 Artikel, die in mindestens zwei der vier Durchläufe verkauft wurden, erzielte ein Opus-Verkäufer im Schnitt 2,68 Dollar mehr, ein Opus-Käufer zahlte 2,45 Dollar weniger. Wenn ein Opus-Verkäufer auf einen Haiku-Käufer traf, lag der durchschnittliche Transaktionspreis bei 24,18 Dollar, verglichen mit 18,63 Dollar bei Opus-gegen-Opus-Deals. Bei einem Medianpreis von 12 Dollar und einem Durchschnittspreis von 20,05 Dollar über alle Durchläufe hinweg sind das laut Anthropic keine trivialen Unterschiede.
Die Verhandlungsinstruktionen der Teilnehmer machten kaum einen Unterschied: Manche baten um freundliches Auftreten, andere forderten aggressive Taktiken wie "verhandle hart und biete zu Beginn absichtlich zu niedrig". Aggressive Verkäufer erzielten zwar höhere Preise, aber nur, weil sie von vornherein höhere Ausgangspreise angaben.
Benachteiligte Teilnehmer merkten nichts
Trotz dieser klaren Preisunterschiede bewerteten die Teilnehmer mit Haiku-Agenten die Fairness ihrer Deals nahezu identisch: 4,06 gegenüber 4,05 auf der Fairness-Skala. Auch bei der Zufriedenheit mit einzelnen Deals gab es keinen statistisch bedeutsamen Unterschied. Von 28 Teilnehmern, die in verschiedenen Durchläufen einmal Opus und einmal Haiku hatten, bevorzugten zwar 17 ihren Opus-Durchlauf, aber immerhin 11 den Haiku-Durchlauf.
Anthropic nennt das eine "unbehagliche Implikation": Wenn in echten Märkten unterschiedlich starke Agenten aufeinandertreffen, könnten Menschen auf der Verliererseite stehen, ohne es überhaupt zu merken. Das Unternehmen räumt ein, dass das Experiment nicht darauf ausgelegt war, diese Dynamiken im Detail zu untersuchen, und es weitere Forschung benötige.
Das Experiment zeige, dass KI-Agenten-Handel plausibel und nicht weit entfernt seien. 46 Prozent der Teilnehmer gaben an, für einen solchen Service bezahlen zu wollen. Gleichzeitig warnt das Unternehmen vor mehreren Risiken: In einer Welt mit Unternehmen statt freiwilligen Mitarbeitern könnten ganz andere Anreize entstehen. Die Optimierung auf die Aufmerksamkeit von KI-Agenten könnte zu einem mächtigen Werkzeug werden, das nicht unbedingt den Menschen zugutekommt. Neue Sicherheitsbedenken wie Jailbreaking und Prompt Injection bei handelnden Agenten kämen hinzu.
"Die politischen und rechtlichen Rahmenbedingungen für KI-Modelle, die in unserem Auftrag Transaktionen durchführen, existieren schlicht noch nicht", schreibt Anthropic. Die Gesellschaft müsse sich schnell mit diesen Veränderungen auseinandersetzen. "Werden diese Dynamiken bestehende wirtschaftliche Ungleichheiten verstärken oder sogar verschärfen?"
Anthropic hatte bereits zuvor mit ähnlichen Experimenten Aufmerksamkeit erregt. Im Rahmen von Project Vend ließ das Unternehmen Claude ein kleines Geschäft aus dem Büro heraus betreiben.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren