KI-Agenten im Finanztest: Studie zeigt Lücke zwischen Versprechen und Wirklichkeit

Ein neuer Benchmark zeigt: Selbst autonome KI-Agenten scheitern an komplexen Finanzaufgaben. Trotz intensiver Tool-Nutzung und hoher Kosten bleiben die Ergebnisse hinter den Anforderungen zurück.

Laut einem neuen Benchmark von Vals.ai sind selbst die fortschrittlichsten KI-Agenten derzeit ungeeignet für den zuverlässigen Einsatz bei Finanzanalysen. Das beste getestete Modell, OpenAIs o3, erreichte lediglich 48,3 Prozent Genauigkeit – bei durchschnittlichen Kosten von 3,69 US-Dollar pro Antwort.

Die Studie wurde gemeinsam mit einem Stanford-Labor und einer global systemrelevanten Bank entwickelt. Sie basiert auf 537 Aufgaben, die typische Tätigkeiten von Finanzanalyst:innen abbilden, wie SEC-Dokumentenrecherche, Marktanalysen oder Prognosen. Insgesamt wurden 22 führende Foundation-Modelle getestet.

Tabelle: Ranking von KI-Modellen im Finanz-Benchmark nach Genauigkeit (%), Kosten/Abfrage ($) und Latenz (s). — Der "Accuracy"-Score in der Tabelle von Vals.ai gibt an, wie viele der gestellten Aufgaben ein KI-Modell korrekt beantwortet hat – gemessen in Prozent. Es handelt sich um den durchschnittlichen Anteil korrekter Endantworten über alle getesteten Fragen im Finance Agent Benchmark. Die Bewertung umfasst dabei Faktenwissen und die Fähigkeit zur Nutzung von Recherchetools und zur Durchführung finanzanalytischer Schlussfolgerungen. | Bild: Vals.ai

Einfaches funktioniert, Analyse nicht

Die Modelle konnten einfache Aufgaben wie das Extrahieren von Zahlenwerten oder das Zusammenfassen von Absätzen mit durchschnittlich 30 bis 38 Prozent Genauigkeit lösen. Anspruchsvollere Aufgaben, etwa Trendanalysen oder Finanzmodellierung, überforderten die Systeme fast vollständig. In der Kategorie "Trends" erzielten zehn Modelle null Prozent. Die beste Leistung stammte von Claude 3.7 Sonnet mit nur 28,6 Prozent.

Die Benchmark-Umgebung stellte den KI-Agenten Tools wie EDGAR-Zugriff, Google-Suche und HTML-Parser zur Verfügung. Modelle wie o3 oder Claude 3.7 Sonnet (Thinking), die diese Tools umfangreich nutzten, schnitten besser ab. Andere Modelle, etwa Llama 4 Maverick, verzichteten weitgehend auf Tool-Nutzung und gaben Antworten ohne Recherche – mit entsprechend schwachen Resultaten.

Allerdings zeigt das Beispiel von GPT-4o Mini, dass auch intensive Tool-Nutzung nicht automatisch zu besseren Ergebnissen führt: Das Modell führte zwar die meisten Tool-Aufrufe durch, machte dabei aber systematisch Fehler in Format und Reihenfolge – und schnitt letztlich schlecht ab.

Einige komplexe Abfragen verursachten Kosten von mehr als fünf Dollar pro Abfrage. OpenAIs o1 war besonders ineffizient: teuer, aber wenig genau. Letztlich müssten diese Kosten mit den Kosten für menschliche Arbeitskraft in einem realen Szenario verglichen werden.

Scatter-Plot: Analyse der Kosten pro Abfrage ($) vs. Genauigkeit (%) verschiedener KI-Modelle im Finanz-Benchmark. — OpenAIs Modell o3 führt das Benchmark-Ranking bei Finanzaufgaben mit einer Genauigkeit von 48,3 Prozent an, ist mit durchschnittlich 3,69 US-Dollar pro Abfrage jedoch das teuerste getestete Modell. Claude 3.7 Sonnet liefert mit rund 43 bis 44 Prozent eine vergleichbare Leistung – zu deutlich niedrigeren Kosten von etwa einem Dollar pro Anfrage. OpenAIs Modell o1 zeigt hingegen das schlechteste Verhältnis von Preis zu Leistung: Bei rund 1,50 US-Dollar pro Abfrage erreicht es nur etwa 20 Prozent Genauigkeit. | Quelle: Vals.ai

Die Modellantworten zeigen zudem eine große Bandbreite an Leistungen, obwohl die zugrunde liegende Technologie ähnlich ist. Bei einer Aufgabe zu den Aktienrückkäufen von Netflix im vierten Quartal 2024 lieferten Claude 3.7, Sonnet (Thinking) und Gemini 2.5 Pro korrekte, quellenbasierte Antworten. GPT-4o und Llama 3.3 hingegen fanden keine oder falsche Informationen.

Das wiederum deutet darauf hin, dass Prompt Engineering, die System-Implementierung und insbesondere das interne Benchmarking weiter relevante menschliche Aufgaben beim KI-Einsatz bleiben.

Empfehlung

KI-Forschung

KI-Agenten übertreffen menschliche Hackerteams in Cybersecurity-Wettbewerben

Lücke zwischen Anspruch und Realität

Die Ergebnisse zeigen laut Vals.ai, dass heutige KI-Agenten zwar in der Lage sind, einfache, aber zeitintensive Aufgaben zu übernehmen. Für den Einsatz in stark regulierten Branchen wie dem Finanzwesen seien sie aber bisher nicht zuverlässig genug. Insbesondere bei Aufgaben mit hoher Komplexität oder Kontextsensitivität sei ein Einsatz als alleinige Entscheidungsgrundlage derzeit nicht vertretbar.

Das Urteil der KI-Bewerter fällt eindeutig aus: Trotz erheblicher Investitionen in autonome KI-Agenten für das Finanzwesen offenbare ihr Benchmark eine deutliche Lücke zwischen Marktversprechen und tatsächlicher Einsatzreife.

Die Modelle seien zwar in der Lage, einfache Daten aus Dokumenten zu extrahieren, scheitern aber an dem tiefgreifenden finanziellen Reasoning, das notwendig wäre, um Analystenarbeit wirklich zu ergänzen – oder zu ersetzen.

Vals.ai stellt das Benchmark-Framework quelloffen zur Verfügung. Die Testdaten bleiben privat, um gezieltes Training darauf zu verhindern. Eine detaillierte Auswertung der Benchmark-Resultate gibt es hier.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

KI-Agenten im Finanztest: Studie zeigt Lücke zwischen Versprechen und Wirklichkeit

Einfaches funktioniert, Analyse nicht

KI-Agenten übertreffen menschliche Hackerteams in Cybersecurity-Wettbewerben

Lücke zwischen Anspruch und Realität

SciArena: o3 dominiert neue KI-Plattform zur Bewertung wissenschaftlicher Antworten

Microsofts MAI-DxO sorgt für präzisere KI-Diagnosen und spart fast 70 Prozent der Kosten

Forschende haben womöglich eine Leiter für die "Datenmauer" gefunden

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

KI-Agenten im Finanztest: Studie zeigt Lücke zwischen Versprechen und Wirklichkeit

Einfaches funktioniert, Analyse nicht

Lücke zwischen Anspruch und Realität

Artikel teilen

Bankverbindung