Inhalt
summary Zusammenfassung

Ein neuer Benchmark zeigt: Selbst autonome KI-Agenten scheitern an komplexen Finanzaufgaben. Trotz intensiver Tool-Nutzung und hoher Kosten bleiben die Ergebnisse hinter den Anforderungen zurück.

Anzeige

Laut einem neuen Benchmark von Vals.ai sind selbst die fortschrittlichsten KI-Agenten derzeit ungeeignet für den zuverlässigen Einsatz bei Finanzanalysen. Das beste getestete Modell, OpenAIs o3, erreichte lediglich 48,3 Prozent Genauigkeit – bei durchschnittlichen Kosten von 3,69 US-Dollar pro Antwort.

Die Studie wurde gemeinsam mit einem Stanford-Labor und einer global systemrelevanten Bank entwickelt. Sie basiert auf 537 Aufgaben, die typische Tätigkeiten von Finanzanalyst:innen abbilden, wie SEC-Dokumentenrecherche, Marktanalysen oder Prognosen. Insgesamt wurden 22 führende Foundation-Modelle getestet.

Tabelle: Ranking von KI-Modellen im Finanz-Benchmark nach Genauigkeit (%), Kosten/Abfrage ($) und Latenz (s).
Der "Accuracy"-Score in der Tabelle von Vals.ai gibt an, wie viele der gestellten Aufgaben ein KI-Modell korrekt beantwortet hat – gemessen in Prozent. Es handelt sich um den durchschnittlichen Anteil korrekter Endantworten über alle getesteten Fragen im Finance Agent Benchmark. Die Bewertung umfasst dabei Faktenwissen und die Fähigkeit zur Nutzung von Recherchetools und zur Durchführung finanzanalytischer Schlussfolgerungen. | Bild: Vals.ai

Einfaches funktioniert, Analyse nicht

Die Modelle konnten einfache Aufgaben wie das Extrahieren von Zahlenwerten oder das Zusammenfassen von Absätzen mit durchschnittlich 30 bis 38 Prozent Genauigkeit lösen. Anspruchsvollere Aufgaben, etwa Trendanalysen oder Finanzmodellierung, überforderten die Systeme fast vollständig. In der Kategorie "Trends" erzielten zehn Modelle null Prozent. Die beste Leistung stammte von Claude 3.7 Sonnet mit nur 28,6 Prozent.

Anzeige
Anzeige

Die Benchmark-Umgebung stellte den KI-Agenten Tools wie EDGAR-Zugriff, Google-Suche und HTML-Parser zur Verfügung. Modelle wie o3 oder Claude 3.7 Sonnet (Thinking), die diese Tools umfangreich nutzten, schnitten besser ab. Andere Modelle, etwa Llama 4 Maverick, verzichteten weitgehend auf Tool-Nutzung und gaben Antworten ohne Recherche – mit entsprechend schwachen Resultaten.

Allerdings zeigt das Beispiel von GPT-4o Mini, dass auch intensive Tool-Nutzung nicht automatisch zu besseren Ergebnissen führt: Das Modell führte zwar die meisten Tool-Aufrufe durch, machte dabei aber systematisch Fehler in Format und Reihenfolge – und schnitt letztlich schlecht ab.

Einige komplexe Abfragen verursachten Kosten von mehr als fünf Dollar pro Abfrage. OpenAIs o1 war besonders ineffizient: teuer, aber wenig genau. Letztlich müssten diese Kosten mit den Kosten für menschliche Arbeitskraft in einem realen Szenario verglichen werden.

Scatter-Plot: Analyse der Kosten pro Abfrage ($) vs. Genauigkeit (%) verschiedener KI-Modelle im Finanz-Benchmark.
OpenAIs Modell o3 führt das Benchmark-Ranking bei Finanzaufgaben mit einer Genauigkeit von 48,3 Prozent an, ist mit durchschnittlich 3,69 US-Dollar pro Abfrage jedoch das teuerste getestete Modell. Claude 3.7 Sonnet liefert mit rund 43 bis 44 Prozent eine vergleichbare Leistung – zu deutlich niedrigeren Kosten von etwa einem Dollar pro Anfrage. OpenAIs Modell o1 zeigt hingegen das schlechteste Verhältnis von Preis zu Leistung: Bei rund 1,50 US-Dollar pro Abfrage erreicht es nur etwa 20 Prozent Genauigkeit. | Quelle: Vals.ai

Die Modellantworten zeigen zudem eine große Bandbreite an Leistungen, obwohl die zugrunde liegende Technologie ähnlich ist. Bei einer Aufgabe zu den Aktienrückkäufen von Netflix im vierten Quartal 2024 lieferten Claude 3.7, Sonnet (Thinking) und Gemini 2.5 Pro korrekte, quellenbasierte Antworten. GPT-4o und Llama 3.3 hingegen fanden keine oder falsche Informationen.

Das wiederum deutet darauf hin, dass Prompt Engineering, die System-Implementierung und insbesondere das interne Benchmarking weiter relevante menschliche Aufgaben beim KI-Einsatz bleiben.

Empfehlung

Lücke zwischen Anspruch und Realität

Die Ergebnisse zeigen laut Vals.ai, dass heutige KI-Agenten zwar in der Lage sind, einfache, aber zeitintensive Aufgaben zu übernehmen. Für den Einsatz in stark regulierten Branchen wie dem Finanzwesen seien sie aber bisher nicht zuverlässig genug. Insbesondere bei Aufgaben mit hoher Komplexität oder Kontextsensitivität sei ein Einsatz als alleinige Entscheidungsgrundlage derzeit nicht vertretbar.

Das Urteil der KI-Bewerter fällt eindeutig aus: Trotz erheblicher Investitionen in autonome KI-Agenten für das Finanzwesen offenbare ihr Benchmark eine deutliche Lücke zwischen Marktversprechen und tatsächlicher Einsatzreife.

Die Modelle seien zwar in der Lage, einfache Daten aus Dokumenten zu extrahieren, scheitern aber an dem tiefgreifenden finanziellen Reasoning, das notwendig wäre, um Analystenarbeit wirklich zu ergänzen – oder zu ersetzen.

Vals.ai stellt das Benchmark-Framework quelloffen zur Verfügung. Die Testdaten bleiben privat, um gezieltes Training darauf zu verhindern. Eine detaillierte Auswertung der Benchmark-Resultate gibt es hier.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Ein neuer Benchmark von Vals.ai zeigt, dass KI-Agenten derzeit für komplexe Finanzanalysen ungeeignet sind: Das beste Modell, OpenAIs o3, erreichte eine Genauigkeit von 48,3 Prozent bei durchschnittlichen Kosten von 3,69 US-Dollar pro Antwort.
  • Die Modelle lösten einfache Aufgaben wie die Datenextraktion mit einer Genauigkeit von bis zu 38 Prozent, versagten aber weitgehend bei anspruchsvollen Analysen oder Prognosen. Der Einsatz von Tools wie Suchmaschinen verbesserte die Leistung, garantierte aber keine richtige Lösung.
  • Den Testern zufolge können Agenten zwar einfache, zeitintensive Aufgaben unterstützen, ihnen fehle aber das tiefe Finanzverständnis für einen zuverlässigen Einsatz im Finanzsektor. Zwischen Marktversprechen und Einsatzreife klaffe eine Lücke.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!