Anzeige
Skip to content

500 Banker bewerten KI-Ergebnisse und finden sie durchweg unbrauchbar für den Kundenkontakt

Image description
Nano Banana Pro prompted by THE DECODER

Ein neuer Benchmark prüft, ob Modelle wie GPT-5.4 oder Claude Opus 4.6 die Arbeit von Junior-Investmentbankern übernehmen können. Banker stufen keinen einzigen KI-Output als abgabereif ein.

Die Forschungsgruppe um Handshake AI und die McGill University hat mit BankerToolBench einen Open-Source-Benchmark veröffentlicht, der KI-Agenten an typischen Arbeitsabläufen von Junior-Investmentbankern misst.

Handshake AI ist ein Geschäftszweig der Karriereplattform Handshake, der geprüfte Akademiker und Fachleute an KI-Labore vermittelt, um deren Modelle zu trainieren und zu bewerten. Nach Tests mit neun aktuellen Spitzenmodellen fällt das Fazit eindeutig aus: Die Ausgaben taugen laut den beteiligten Bankern nicht für den Kundenkontakt.

Drei Balkendiagramme zur Bewertung von KI-Ergebnissen durch Investmentbanker. Null Prozent gelten als direkt versendbar, 13 Prozent brauchen leichte, 19 Prozent moderate, 41 Prozent umfassende Überarbeitungen, 27 Prozent sind unbrauchbar. 69 Prozent würden immerhin auf der KI-Ausgabe aufbauen. 55 Prozent schätzen das Risiko eines schlechten Ausgangs bei unveränderter Abgabe auf über 99 Prozent.
41 Prozent der KI-Ausgaben müssten laut den befragten Bankern grundlegend überarbeitet werden, 27 Prozent sind gänzlich unbrauchbar. Nur 13 Prozent kämen mit leichten Korrekturen aus, keine einzige Ausgabe wurde als ohne Änderungen abgabereif eingestuft. | Bild: Lau et al.

Für den Benchmark hat das Team rund 500 aktive und ehemalige Investmentbanker von Firmen wie Goldman Sachs, JPMorgan, Evercore, Morgan Stanley und Lazard eingebunden. 172 davon haben die Aufgaben selbst erstellt und dafür nach Angaben der Autoren über 5.700 Arbeitsstunden aufgewendet. Jede der 100 Aufgaben dauert einen menschlichen Banker im Schnitt fünf Stunden, manche bis zu 21 Stunden.

Fertige Excel-Modelle statt Textantworten

BankerToolBench bewertet die konkreten Arbeitsprodukte, die ein Junior-Banker an seinen Vorgesetzten schicken würde. Dazu gehören Excel-Finanzmodelle mit funktionierenden Formeln, PowerPoint-Präsentationen für Kundengespräche, PDF-Berichte und Word-Memos.

Die KI-Agenten müssen dafür Datenräume durchsuchen, Marktdatenplattformen wie FactSet oder Capital IQ abfragen und SEC-Pflichtveröffentlichungen auswerten. Pro Aufgabe fallen laut dem Paper bis zu 539 Anfragen an das Sprachmodell an, 97 Prozent davon betreffen Tool-Aufrufe oder Code-Ausführung.

Jedes Arbeitsergebnis wird gegen ein von Bankern entwickeltes Bewertungsraster geprüft, das im Schnitt 150 Einzelkriterien umfasst. Die Kriterien decken sechs Bereiche ab, darunter technische Korrektheit, Kundentauglichkeit, Einhaltung der Vorgaben, Nachvollziehbarkeit und Konsistenz über alle Dateien hinweg.

Die Prüfung übernimmt ein von den Autoren entwickelter KI-Verifier namens Gandalf auf Basis von Gemini 3 Flash Preview. Er stimmt in 88,2 Prozent der Fälle mit menschlichen Bewertungen überein und liegt damit etwas über der Übereinstimmung zwischen zwei menschlichen Prüfern mit 84,6 Prozent.

GPT-5.4 vorn, aber weit vom Ziel entfernt

Getestet wurden GPT-5.2, GPT-5.4, Claude Opus 4.5 und 4.6, Gemini 2.5 Pro, Gemini 3.1 Pro Preview, Grok 4 sowie die Open-Source-Modelle Qwen-3.5-397B und GLM-5. GPT-5.4 schneidet am besten ab, fällt aber bei fast der Hälfte aller Kriterien durch. Nur 16 Prozent seiner Arbeitsergebnisse erreichen die Schwelle, ab der Banker sie als brauchbaren Ausgangspunkt akzeptieren würden. Verlangt man drei konsistente Durchläufe, sinkt der Wert auf 13 Prozent.

Balkendiagramm mit Pass-Raten von neun KI-Modellen auf BankerToolBench. GPT-5.4 führt mit 16 Prozent Pass@1 und 23 Prozent Pass@3, gefolgt von Gemini 3.1 Pro mit 10 Prozent und Claude Opus 4.6 mit 9 Prozent. Gemini 2.5 Pro liegt bei null Prozent.
Nur 16 Prozent der Ergebnisse von GPT-5.4 halten Banker für einen brauchbaren Ausgangspunkt. Fordert man drei konsistente Durchläufe, sinkt der Wert auf 13 Prozent. Gemini 2.5 Pro besteht keine einzige Aufgabe. | Bild: Lau et al.

Kein einziges der von den Modellen erzeugten Arbeitsergebnisse wurde von den Bankern als ohne Änderungen abgabereif eingestuft. Bei GPT-5.4 bestehen gerade einmal zwei Prozent der Aufgaben alle kritisch gewichteten Kriterien, bei Gemini 2.5 Pro sind es null Prozent.

Schön, aber unbrauchbar

Claude Opus 4.6 liefert laut den Forschern auf den ersten Blick ansprechende Ergebnisse. Die Inspektion der Excel-Modelle zeigt jedoch ein grundsätzliches Problem. Die meisten Kennzahlen sind als feste Werte eingetragen, statt über Formeln berechnet. Für das Investmentbanking ist das laut dem Paper inakzeptabel, weil damit Szenarioanalysen unmöglich werden. Wer im Modell den Kaufpreis ändert, sieht keine aktualisierten Ergebnisse. Dasselbe Problem zeigte bereits der Vorgänger Claude Opus 4.5.

Links Balkendiagramm mit den erreichten Rubric-Scores: GPT-5.4 (58,1), GPT-5.2 (56,1), Gemini 3.1 Pro (53,6), Claude Opus 4.6 (53,2), Claude Opus 4.5 (52,3), GLM 5 (46,8), Qwen 3.5 397B (42,6), Grok 4 (31,4), Gemini 2.5 Pro (29,4). Rechts eine Matrix mit paarweisen Siegesraten zwischen den Modellen.
GPT-5.4 erreicht im Gesamtscore 58,1 von 100 Punkten und schlägt GPT-5.2 in 70 Prozent der direkten Aufgabenvergleiche. Claude Opus 4.6 und Gemini 3.1 Pro liegen fast gleichauf, Grok 4 und Gemini 2.5 Pro fallen deutlich ab. | Bild: Lau et al.

Die Analyse der Agenten-Trajektorien zeigt vier wiederkehrende Fehlermuster bei GPT-5.4. Am häufigsten sind mit 41 Prozent Fehler bei der Code- und Formelerzeugung. Die Agenten rufen zum Beispiel python-pptx-Funktionen auf, die gar nicht existieren. Statt das eigentliche Problem zu beheben, löschen sie die fehlerhafte Zeile einfach.

In 27 Prozent der Fälle versagt die fachliche Logik, etwa wenn Kostensynergien zur Umsatzzeile statt zu den Kosten addiert werden. 18 Prozent der Fehler betreffen abgebrochene Datenabfragen. In 13 Prozent erfinden die Agenten fehlende Zahlen und geben sie als belegt aus.

Sechs Balkendiagramme mit den Scores von neun KI-Modellen in den Bewertungskategorien Instruction Following, Technical Correctness, Client Readiness, Internal Consistency, Transparency und Risk & Compliance. GPT-5.4 führt in vier Kategorien, Claude Opus 4.6 in den verbleibenden zwei. Gemini 2.5 Pro und Grok 4 bilden durchgängig das Schlusslicht.
Claude Opus 4.6 führt bei Client Readiness mit 63 Punkten und bei Risk & Compliance mit 46 Punkten. Bei der entscheidenden technischen Korrektheit kommt das Modell aber nur auf 47 Punkte, während GPT-5.4 hier mit 57 Punkten vorn liegt. | Bild: Lau et al.

Fehler im Detail

Die im Paper dokumentierten Beispiele zeigen, wie heikel die Ergebnisse sind. In einer generierten Präsentation findet der Verifier einen Umsatzwert von 189,5 Milliarden Dollar auf einer Folie und 201,0 Milliarden Dollar auf der nächsten. Beide betreffen denselben Zeitraum.

In einem anderen Fall nutzt der Agent Netflix-Rot als Akzentfarbe, obwohl die Vorgaben der Bank ein einheitliches Blau verlangen. Bei einer Wettbewerbsanalyse für Pharmapräparate erfand ein Agent konkrete klinische Studiendaten, nachdem die SEC-Datenbank keine Treffer geliefert hatte.

Schematische Darstellung des BankerToolBench-Ablaufs. Oben erstellen Investmentbanker Beispiel-Deliverables und definieren Bewertungsraster, unten erhalten KI-Agenten dieselben Prompts und arbeiten in einer Umgebung mit vier Tools: SEC-Filings, Marktdaten, Firmenprofile und vorgegebene Dateien. Die von den Agenten erzeugten Dateien gehen an ein Verifier-Scoring, das die gewichtete Bestehensrate über alle Rasterpunkte berechnet.
Aufbau von BankerToolBench: Banker formulieren realistische Aufträge, erstellen Muster-Deliverables und legen Bewertungsraster fest. Die KI-Agenten arbeiten die Aufgaben im Sandbox-Umfeld mit SEC-Filings, Marktdaten und Firmeninformationen ab, ein Verifier prüft die erzeugten Excel-, PowerPoint- und Word-Dateien gegen die Raster. | Bild: Lau et al.

Die Modelle schneiden bei PowerPoint-Aufgaben tendenziell besser ab als bei Excel-Arbeit. Am schwierigsten sind Aufgaben aus dem Bereich Debt Capital Markets sowie Merger-Modelle und Kapitalstruktur-Tabellen. Das Team führt einen Teil der Defizite auf fehlendes Fachwissen zurück. Werden die Aufgaben um zusätzlichen Kontext aus dem Bankalltag angereichert, steigen die Bewertungen deutlich.

Benchmark taugt auch für Training

BankerToolBench lässt sich laut den Autoren auch für Reinforcement Learning nutzen. In Experimenten mit Qwen-3-4B und 32B verbesserten die Methoden Dr. GRPO und DPO die Benchmark-Leistung um das Fünf- bis Dreizehnfache, wenn auch von einem sehr niedrigen Ausgangsniveau.

Einschränkungen des Benchmarks sind laut Team der Zuschnitt auf die USA, das Fehlen vertraulicher Deal-Informationen und die fehlende Abbildung iterativer Teamarbeit realer Banken. Dennoch liefert er nach Einschätzung der Autoren einen der bislang detailliertesten Tests für die Frage, ob KI-Agenten anspruchsvolle Wissensarbeit übernehmen können. Die aktuelle Antwort: noch nicht. Der vollständige Benchmark mit Daten, Bewertungsrastern und Verifier ist öffentlich verfügbar.

Die Ergebnisse passen zu anderen aktuellen Befunden. Eine Untersuchung von Vals.ai mit einer global systemrelevanten Bank zeigte bereits, dass OpenAIs o3 bei Finanzanalyse-Aufgaben nur 48,3 Prozent Genauigkeit erreicht. Eine Studie der UC Berkeley kam zu dem Schluss, dass erfolgreiche Teams in der Praxis auf einfache, stark kontrollierte Agenten mit wenigen Schritten setzen. Und eine Analyse von Carnegie Mellon und Stanford kritisiert, dass die Agenten-Entwicklung bisher primär auf Programmieraufgaben zielt und wirtschaftlich bedeutende Bereiche wie Management, Recht und Finanzen in Benchmarks kaum abgebildet werden.

Gleichzeitig arbeiten Hersteller wie Anthropic an genau jenen Schwachstellen, die BankerToolBench offenlegt. Anthropic hat kürzlich eine Funktion vorgestellt, mit der Claude eigenständig zwischen Excel und PowerPoint wechselt, und integriert über Cowork-Plugins Marktdatendienste wie FactSet, MSCI und LSEG direkt in den Arbeitsablauf.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Der Rest ist für Abonnenten.
Jetzt Abo abschließen.

  • Zugriff auf alle THE DECODER Artikel.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren