Warum Sprachmodelle in Finanzfragen immer noch eine schlechte Wahl sind

Sind große Sprachmodelle fit für die Finanzwelt? Eine neue Studie zeigt, dass selbst die besten LLMs Schwierigkeiten haben, Fragen zu Finanzdaten korrekt zu beantworten.

Forscherinnen und Forscher von Patronus AI haben festgestellt, dass große Sprachmodelle wie GPT-4 Turbo von OpenAI bei der Beantwortung von Fragen zu Berichten der US-Börsenaufsichtsbehörde SEC häufig versagen. Das unterstreicht die Herausforderungen, vor denen regulierte Branchen wie der Finanzsektor stehen, wenn sie KI-Modelle in Kundenservice- oder Rechercheprozesse implementieren wollen.

Ungenügende Genauigkeit bei allen getesteten Modellen

Patronus AI hat vier Sprachmodelle für die Beantwortung von Fragen zu Finanzberichten von Unternehmen getestet: GPT-4 und GPT-4 Turbo von OpenAI, Anthropics Claude 2 und Metas Llama 2. Das beste Modell, GPT-4 Turbo, erreichte im Test von Patronus AI nur eine Genauigkeit von 79 Prozent, obwohl fast die gesamte Nachricht mit der Frage geliefert wurde.

Die Modelle verweigerten häufig die Beantwortung von Fragen oder erfanden Zahlen und Fakten, die in den SEC-Berichten nicht enthalten waren. Laut Anand Kannappan, Mitbegründer von Patronus AI, ist diese Leistung "absolut inakzeptabel" und müsste für den Einsatz in automatisierten und produktionsreifen Anwendungen deutlich höher sein.

FinanceBench mit 10.000 Finanzfragen

Patronus AI hat für den Test FinanceBench entwickelt, einen Datensatz mit mehr als 10.000 Fragen und Antworten aus SEC-Berichten großer börsennotierter Unternehmen. Der Datensatz enthält die korrekten Antworten und ihre genaue Position in den Berichten. Einige Antworten erfordern einfache mathematische oder logische Überlegungen. Zum Beispiel

Hat CVS Health im 2. Quartal des FY2022 eine Dividende an die Stammaktionäre ausgeschüttet?
Hat AMD im FY2022 eine Kundenkonzentration gemeldet?
Wie hoch ist die prozentuale COGS-Marge von Coca Cola im FY2021? Berechnen Sie die Frage anhand der Posten, die in der Gewinn- und Verlustrechnung deutlich ausgewiesen sind.

Fragen aus FinanceBench

Die Forscher sind überzeugt, dass KI-Modelle ein erhebliches Unterstützungspotenzial für den Finanzsektor haben, wenn sie weiter verbessert werden. Die derzeitigen Leistungsraten zeigten jedoch, dass immer noch Menschen in den Arbeitsablauf eingebunden werden müssen, um den Prozess zu unterstützen und zu steuern.

Eine mögliche Lösung könnte darin bestehen, KI-Systeme durch verbesserte Prompts stärker mit der spezifischen Aufgabe vertraut zu machen. Dies könnte ihre Fähigkeit verbessern, relevante Informationen zu extrahieren. Allerdings bleibt die Frage offen, ob solche Ansätze das Problem generell oder nur in bestimmten Szenarien lösen können.

OpenAI schließt in seinen Nutzungsrichtlinien aus, individuelle Finanzberatung mit einem OpenAI-Modell anzubieten, ohne dass eine qualifizierte Person die Informationen überprüft.

Bekanntes Problem ohne neue Lösung

Große Sprachmodelle haben bekanntermaßen Schwierigkeiten, Informationen insbesondere aus der Mitte langer Texte verlässlich zu extrahieren. Dieses Phänomen, bekannt als "Lost in the Middle", wirft Fragen über den Nutzen großer Kontextfenster in Sprachmodellen auf.

Empfehlung

KI in der Praxis

OpenAI macht bei GPT-5 eine Rolle rückwärts

Anthropic hat kürzlich eine Methode entwickelt, um das "Lost in the Middle"-Problem seines KI-Modells Claude 2.1 zu lösen, indem der Antwort des Modells der Satz "Dies ist der relevanteste Satz im Kontext:" vorangestellt wird. Ob diese Methode für viele Aufgaben verlässlich skaliert und eine ähnliche Verbesserung für GPT-4 (Turbo) bringt, müssen Tests zeigen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Warum Sprachmodelle in Finanzfragen immer noch eine schlechte Wahl sind

Ungenügende Genauigkeit bei allen getesteten Modellen

FinanceBench mit 10.000 Finanzfragen

Bekanntes Problem ohne neue Lösung

OpenAI macht bei GPT-5 eine Rolle rückwärts

OpenAI launcht "ChatGPT Record": Audio aufnehmen, transkribieren, zusammenfassen

RUBICON: Neues Bewertungssystem für KI-Unterhaltungen in der Softwareentwicklung

Sprachmodelle wie GPT-4 lernen laut Studie eher auswendig als zu schlussfolgern

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Warum Sprachmodelle in Finanzfragen immer noch eine schlechte Wahl sind

Ungenügende Genauigkeit bei allen getesteten Modellen

FinanceBench mit 10.000 Finanzfragen

Bekanntes Problem ohne neue Lösung

Artikel teilen

Bankverbindung