Anzeige
Skip to content

Aktuelle KI-Modelle meistern anspruchsvolle CFA-Finanzanalysten-Prüfung

Image description
Nano Banana Pro prompted by THE DECODER

Eine neue Studie zeigt, dass aktuelle Reasoning-Modelle die anspruchsvolle Finanzanalysten-Prüfung meistern. Gemini 3.0 Pro erreicht bei Level I einen Rekordwert von 97,6 Prozent.

Die CFA-Zertifizierung (Chartered Financial Analyst) gilt als eine der anspruchsvollsten Qualifikationen im Finanzbereich. Die dreistufige Prüfung testet aufeinander aufbauende Fähigkeiten: Grundlagenwissen, Anwendung und Analyse sowie komplexe Portfoliokonstruktion.

Noch vor gut zwei Jahren scheiterten die damals führenden Sprachmodelle an der Chartered Financial Analyst (CFA) Prüfung, einer der anspruchsvollsten Zertifizierungen für Finanzprofis weltweit. ChatGPT (3.5) fiel bei Level I und II durch, GPT-4 schaffte zwar Level I, versagte aber bei Level II. GPT-4o schaffte als reines Sprachmodell alle drei Level.

Eine neue Studie von Forschern der Columbia University, des Rensselaer Polytechnic Institute und der University of North Carolina zeigt nun: Die aktuelle Generation der Reasoning-Modelle besteht alle drei Prüfungsstufen mit teils nahezu perfekten Ergebnissen.

Anzeige
DEC_D_Incontent-1

Die Forscher testeten sechs Reasoning-Modelle auf insgesamt 980 Prüfungsfragen: drei Level-I-Prüfungen mit 540 Multiple-Choice-Fragen, zwei Level-II-Prüfungen mit 176 fallbasierten Fragen und drei Level-III-Prüfungen mit 264 Fragen, darunter auch offene Antwortformate. Das Ergebnis: Gemini 3.0 Pro, Gemini 2.5 Pro, GPT-5, Grok 4, Claude Opus 4.1 und DeepSeek-V3.1 bestehen alle drei Levels nach den etablierten Kriterien früherer Studien.

Gemini und GPT-5 dominieren die Rangliste

Bei Level I, der Grundlagenprüfung mit unabhängigen Multiple-Choice-Fragen, erreicht laut der Studie Gemini 3.0 Pro einen Rekordwert von 97,6 Prozent. GPT-5 folgt mit 96,1 Prozent, Gemini 2.5 Pro mit 95,7 Prozent. Selbst das schwächste getestete Reasoning-Modell, DeepSeek-V3.1, kommt auf 90,9 Prozent.

Level II, das Anwendung und Analyse anhand von Fallstudien testet, führt GPT-5 mit 94,3 Prozent an. Gemini 3.0 Pro erreicht 93,2 Prozent, Gemini 2.5 Pro 92,6 Prozent. Die Forscher betonen, dass die Modelle hier "nahezu perfekte Ergebnisse" erzielen.

Die komplexeste Stufe, Level III, kombiniert Multiple-Choice-Fragen mit offenen Antwortformaten, die komplexe Synthese und Portfoliokonstruktion erfordern. Bei den Multiple-Choice-Fragen schneidet Gemini 2.5 Pro mit 86,4 Prozent am besten ab. Bei den konstruierten Antworten hingegen dominiert Gemini 3.0 Pro mit 92,0 Prozent, verglichen mit 82,8 Prozent bei seinem Vorgänger.

Anzeige
DEC_D_Incontent-2

Am schwächsten schnitten die Modelle im Bereich Ethik ab: Die Forscher berichten von relativen Fehlerquoten von etwa 17 bis 21 Prozent bei Level II, selbst bei den leistungsstärksten Modellen.

Level Bestes Modell Ergebnis
Level I (Multiple-Choice) Gemini 3.0 Pro 97,6%
Level II (Multiple-Choice) GPT-5 94,3%
Level III (Multiple-Choice) Gemini 2.5 Pro 86,4%
Level III (Konstruierte Antworten) Gemini 3.0 Pro 92,0%
Gesamtranking Gemini 3.0 Pro Platz 1

Ob ein Modell ein Level besteht, hängt in der Studie an festgelegten Schwellenwerten aus früheren Arbeiten: Level I gilt als bestanden, wenn in jedem Topic mindestens 60% und insgesamt mindestens 70% erreicht werden. Für Level II liegen die Grenzen bei mindestens 50% je Topic und mindestens 60% insgesamt. Level III wird bestanden, wenn der Durchschnitt aus Multiple-Choice- und Constructed-Response-Ergebnis mindestens 63% beträgt.

Die Autoren bewerteten die Modelle an einem „mock exam dataset“ mit insgesamt 980 Fragen über alle drei Levels. Der Datensatz wurde aus zwei Quellen zusammengestellt: dem offiziellen CFA Institute Practice Pack und AnalystPrep. Während Level I und II auf offiziellem CFA-Material basieren, stammt Level III aus Drittanbieter-Mock-Exams (AnalystPrep), um die Vergleichbarkeit mit früheren Arbeiten zu wahren.

Die Bewertung der offenen Antworten erfolgt automatisiert durch o4-mini, was laut Studie Messfehler und einen möglichen „verbosity bias“ mit sich bringt, bei dem ausführliche Antworten bevorzugt werden. Die Resultate sind daher als modellbasierte Annäherung zu verstehen.

Benchmarks sind kein Praxistest

Die Ergebnisse deuten laut den Forschern darauf hin, dass aktuelle Modelle "die Expertise übertreffen, die von Finanzanalysten auf Einstiegs- bis mittlerem Niveau erwartet wird". Während LLMs das „kodifizierte Wissen“ der Levels I und II bereits gemeistert hatten, entwickelt die jüngste Generation nun gezielt die komplexen Synthese-Fähigkeiten, die für Level III erforderlich sind. Sie könnten in Zukunft sogar "Senior-Level"-Kompetenz erreichen.

Wie immer gilt hier die Einschränkung, dass Benchmarks, speziell Multiple-Choice-Formate, maximal ein Indiz für die Leistungsfähigkeit und mögliche wirtschaftliche Auswirkungen in einem Bereich sind. Eine bestandene Prüfung bedeutet nicht, dass ein Modell die tägliche Arbeit eines Finanzanalysten übernehmen kann, etwa das Führen von Kundengesprächen, das Einschätzen von Marktsentiment oder das Treffen von Entscheidungen unter Unsicherheit mit unvollständigen Informationen.

Die Studie selbst weist darauf hin, dass die Modelle bei ethischen Fragen, die oft Kontextverständnis und Urteilsvermögen erfordern, weiterhin die höchsten Fehlerquoten aufweisen. Zudem testet eine Prüfungssituation isoliertes Wissen und nicht die Fähigkeit, dieses Wissen in komplexen, sich verändernden Situationen anzuwenden, wie sie im Berufsalltag auftreten.

Die Forscher können zudem nicht ausschließen, dass Teile der Prüfungsfragen in den Trainingsdaten der Modelle enthalten waren. Sie verwendeten zwar aktuelle, kostenpflichtige Materialien, aber indirekte Kontamination durch paraphrasierte Inhalte in öffentlichen Korpora sei möglich.

Dennoch zeigt der Fortschritt von "durchgefallen" zu "nahezu perfekt" innerhalb von zwei Jahren, wie schnell sich die Fähigkeiten von KI-Modellen in spezialisierten Wissensdomänen entwickeln. Für die Finanzbranche dürfte die Frage weniger sein, ob KI-Systeme Fachwissen beherrschen, sondern wie sich dieses Wissen sinnvoll in bestehende Arbeitsabläufe integrieren lässt.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Arxiv

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren