500 Banker bewerten KI-Ergebnisse und finden sie durchweg unbrauchbar für den Kundenkontakt
Ein neuer Benchmark prüft, ob Modelle wie GPT-5.4 oder Claude Opus 4.6 die Arbeit von Junior-Investmentbankern übernehmen können. Banker stufen keinen einzigen KI-Output als abgabereif ein.
Die Forschungsgruppe um Handshake AI und die McGill University hat mit BankerToolBench einen Open-Source-Benchmark veröffentlicht, der KI-Agenten an typischen Arbeitsabläufen von Junior-Investmentbankern misst.
Handshake AI ist ein Geschäftszweig der Karriereplattform Handshake, der geprüfte Akademiker und Fachleute an KI-Labore vermittelt, um deren Modelle zu trainieren und zu bewerten. Nach Tests mit neun aktuellen Spitzenmodellen fällt das Fazit eindeutig aus: Die Ausgaben taugen laut den beteiligten Bankern nicht für den Kundenkontakt.

Für den Benchmark hat das Team rund 500 aktive und ehemalige Investmentbanker von Firmen wie Goldman Sachs, JPMorgan, Evercore, Morgan Stanley und Lazard eingebunden. 172 davon haben die Aufgaben selbst erstellt und dafür nach Angaben der Autoren über 5.700 Arbeitsstunden aufgewendet. Jede der 100 Aufgaben dauert einen menschlichen Banker im Schnitt fünf Stunden, manche bis zu 21 Stunden.
Fertige Excel-Modelle statt Textantworten
BankerToolBench bewertet die konkreten Arbeitsprodukte, die ein Junior-Banker an seinen Vorgesetzten schicken würde. Dazu gehören Excel-Finanzmodelle mit funktionierenden Formeln, PowerPoint-Präsentationen für Kundengespräche, PDF-Berichte und Word-Memos.
Die KI-Agenten müssen dafür Datenräume durchsuchen, Marktdatenplattformen wie FactSet oder Capital IQ abfragen und SEC-Pflichtveröffentlichungen auswerten. Pro Aufgabe fallen laut dem Paper bis zu 539 Anfragen an das Sprachmodell an, 97 Prozent davon betreffen Tool-Aufrufe oder Code-Ausführung.
Jedes Arbeitsergebnis wird gegen ein von Bankern entwickeltes Bewertungsraster geprüft, das im Schnitt 150 Einzelkriterien umfasst. Die Kriterien decken sechs Bereiche ab, darunter technische Korrektheit, Kundentauglichkeit, Einhaltung der Vorgaben, Nachvollziehbarkeit und Konsistenz über alle Dateien hinweg.
Die Prüfung übernimmt ein von den Autoren entwickelter KI-Verifier namens Gandalf auf Basis von Gemini 3 Flash Preview. Er stimmt in 88,2 Prozent der Fälle mit menschlichen Bewertungen überein und liegt damit etwas über der Übereinstimmung zwischen zwei menschlichen Prüfern mit 84,6 Prozent.
GPT-5.4 vorn, aber weit vom Ziel entfernt
Getestet wurden GPT-5.2, GPT-5.4, Claude Opus 4.5 und 4.6, Gemini 2.5 Pro, Gemini 3.1 Pro Preview, Grok 4 sowie die Open-Source-Modelle Qwen-3.5-397B und GLM-5. GPT-5.4 schneidet am besten ab, fällt aber bei fast der Hälfte aller Kriterien durch. Nur 16 Prozent seiner Arbeitsergebnisse erreichen die Schwelle, ab der Banker sie als brauchbaren Ausgangspunkt akzeptieren würden. Verlangt man drei konsistente Durchläufe, sinkt der Wert auf 13 Prozent.

Kein einziges der von den Modellen erzeugten Arbeitsergebnisse wurde von den Bankern als ohne Änderungen abgabereif eingestuft. Bei GPT-5.4 bestehen gerade einmal zwei Prozent der Aufgaben alle kritisch gewichteten Kriterien, bei Gemini 2.5 Pro sind es null Prozent.
Schön, aber unbrauchbar
Claude Opus 4.6 liefert laut den Forschern auf den ersten Blick ansprechende Ergebnisse. Die Inspektion der Excel-Modelle zeigt jedoch ein grundsätzliches Problem. Die meisten Kennzahlen sind als feste Werte eingetragen, statt über Formeln berechnet. Für das Investmentbanking ist das laut dem Paper inakzeptabel, weil damit Szenarioanalysen unmöglich werden. Wer im Modell den Kaufpreis ändert, sieht keine aktualisierten Ergebnisse. Dasselbe Problem zeigte bereits der Vorgänger Claude Opus 4.5.

Die Analyse der Agenten-Trajektorien zeigt vier wiederkehrende Fehlermuster bei GPT-5.4. Am häufigsten sind mit 41 Prozent Fehler bei der Code- und Formelerzeugung. Die Agenten rufen zum Beispiel python-pptx-Funktionen auf, die gar nicht existieren. Statt das eigentliche Problem zu beheben, löschen sie die fehlerhafte Zeile einfach.
In 27 Prozent der Fälle versagt die fachliche Logik, etwa wenn Kostensynergien zur Umsatzzeile statt zu den Kosten addiert werden. 18 Prozent der Fehler betreffen abgebrochene Datenabfragen. In 13 Prozent erfinden die Agenten fehlende Zahlen und geben sie als belegt aus.

Fehler im Detail
Die im Paper dokumentierten Beispiele zeigen, wie heikel die Ergebnisse sind. In einer generierten Präsentation findet der Verifier einen Umsatzwert von 189,5 Milliarden Dollar auf einer Folie und 201,0 Milliarden Dollar auf der nächsten. Beide betreffen denselben Zeitraum.
In einem anderen Fall nutzt der Agent Netflix-Rot als Akzentfarbe, obwohl die Vorgaben der Bank ein einheitliches Blau verlangen. Bei einer Wettbewerbsanalyse für Pharmapräparate erfand ein Agent konkrete klinische Studiendaten, nachdem die SEC-Datenbank keine Treffer geliefert hatte.

Die Modelle schneiden bei PowerPoint-Aufgaben tendenziell besser ab als bei Excel-Arbeit. Am schwierigsten sind Aufgaben aus dem Bereich Debt Capital Markets sowie Merger-Modelle und Kapitalstruktur-Tabellen. Das Team führt einen Teil der Defizite auf fehlendes Fachwissen zurück. Werden die Aufgaben um zusätzlichen Kontext aus dem Bankalltag angereichert, steigen die Bewertungen deutlich.
Benchmark taugt auch für Training
BankerToolBench lässt sich laut den Autoren auch für Reinforcement Learning nutzen. In Experimenten mit Qwen-3-4B und 32B verbesserten die Methoden Dr. GRPO und DPO die Benchmark-Leistung um das Fünf- bis Dreizehnfache, wenn auch von einem sehr niedrigen Ausgangsniveau.
Einschränkungen des Benchmarks sind laut Team der Zuschnitt auf die USA, das Fehlen vertraulicher Deal-Informationen und die fehlende Abbildung iterativer Teamarbeit realer Banken. Dennoch liefert er nach Einschätzung der Autoren einen der bislang detailliertesten Tests für die Frage, ob KI-Agenten anspruchsvolle Wissensarbeit übernehmen können. Die aktuelle Antwort: noch nicht. Der vollständige Benchmark mit Daten, Bewertungsrastern und Verifier ist öffentlich verfügbar.
Die Ergebnisse passen zu anderen aktuellen Befunden. Eine Untersuchung von Vals.ai mit einer global systemrelevanten Bank zeigte bereits, dass OpenAIs o3 bei Finanzanalyse-Aufgaben nur 48,3 Prozent Genauigkeit erreicht. Eine Studie der UC Berkeley kam zu dem Schluss, dass erfolgreiche Teams in der Praxis auf einfache, stark kontrollierte Agenten mit wenigen Schritten setzen. Und eine Analyse von Carnegie Mellon und Stanford kritisiert, dass die Agenten-Entwicklung bisher primär auf Programmieraufgaben zielt und wirtschaftlich bedeutende Bereiche wie Management, Recht und Finanzen in Benchmarks kaum abgebildet werden.
Gleichzeitig arbeiten Hersteller wie Anthropic an genau jenen Schwachstellen, die BankerToolBench offenlegt. Anthropic hat kürzlich eine Funktion vorgestellt, mit der Claude eigenständig zwischen Excel und PowerPoint wechselt, und integriert über Cowork-Plugins Marktdatendienste wie FactSet, MSCI und LSEG direkt in den Arbeitsablauf.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenDer Rest ist für Abonnenten.
Jetzt Abo abschließen.
- Zugriff auf alle THE DECODER Artikel.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.