Inhalt
summary Zusammenfassung

Sind große Sprachmodelle fit für die Finanzwelt? Eine neue Studie zeigt, dass selbst die besten LLMs Schwierigkeiten haben, Fragen zu Finanzdaten korrekt zu beantworten.

Forscherinnen und Forscher von Patronus AI haben festgestellt, dass große Sprachmodelle wie GPT-4 Turbo von OpenAI bei der Beantwortung von Fragen zu Berichten der US-Börsenaufsichtsbehörde SEC häufig versagen. Das unterstreicht die Herausforderungen, vor denen regulierte Branchen wie der Finanzsektor stehen, wenn sie KI-Modelle in Kundenservice- oder Rechercheprozesse implementieren wollen.

Ungenügende Genauigkeit bei allen getesteten Modellen

Patronus AI hat vier Sprachmodelle für die Beantwortung von Fragen zu Finanzberichten von Unternehmen getestet: GPT-4 und GPT-4 Turbo von OpenAI, Anthropics Claude 2 und Metas Llama 2. Das beste Modell, GPT-4 Turbo, erreichte im Test von Patronus AI nur eine Genauigkeit von 79 Prozent, obwohl fast die gesamte Nachricht mit der Frage geliefert wurde.

Die Modelle verweigerten häufig die Beantwortung von Fragen oder erfanden Zahlen und Fakten, die in den SEC-Berichten nicht enthalten waren. Laut Anand Kannappan, Mitbegründer von Patronus AI, ist diese Leistung "absolut inakzeptabel" und müsste für den Einsatz in automatisierten und produktionsreifen Anwendungen deutlich höher sein.

Anzeige
Anzeige
Bild: Islam et al.

FinanceBench mit 10.000 Finanzfragen

Patronus AI hat für den Test FinanceBench entwickelt, einen Datensatz mit mehr als 10.000 Fragen und Antworten aus SEC-Berichten großer börsennotierter Unternehmen. Der Datensatz enthält die korrekten Antworten und ihre genaue Position in den Berichten. Einige Antworten erfordern einfache mathematische oder logische Überlegungen. Zum Beispiel

Hat CVS Health im 2. Quartal des FY2022 eine Dividende an die Stammaktionäre ausgeschüttet?
Hat AMD im FY2022 eine Kundenkonzentration gemeldet?
Wie hoch ist die prozentuale COGS-Marge von Coca Cola im FY2021? Berechnen Sie die Frage anhand der Posten, die in der Gewinn- und Verlustrechnung deutlich ausgewiesen sind.

Fragen aus FinanceBench

Die Forscher sind überzeugt, dass KI-Modelle ein erhebliches Unterstützungspotenzial für den Finanzsektor haben, wenn sie weiter verbessert werden. Die derzeitigen Leistungsraten zeigten jedoch, dass immer noch Menschen in den Arbeitsablauf eingebunden werden müssen, um den Prozess zu unterstützen und zu steuern.

Eine mögliche Lösung könnte darin bestehen, KI-Systeme durch verbesserte Prompts stärker mit der spezifischen Aufgabe vertraut zu machen. Dies könnte ihre Fähigkeit verbessern, relevante Informationen zu extrahieren. Allerdings bleibt die Frage offen, ob solche Ansätze das Problem generell oder nur in bestimmten Szenarien lösen können.

OpenAI schließt in seinen Nutzungsrichtlinien aus, individuelle Finanzberatung mit einem OpenAI-Modell anzubieten, ohne dass eine qualifizierte Person die Informationen überprüft.

Bekanntes Problem ohne neue Lösung

Große Sprachmodelle haben bekanntermaßen Schwierigkeiten, Informationen insbesondere aus der Mitte langer Texte verlässlich zu extrahieren. Dieses Phänomen, bekannt als "Lost in the Middle", wirft Fragen über den Nutzen großer Kontextfenster in Sprachmodellen auf.

Empfehlung

Anthropic hat kürzlich eine Methode entwickelt, um das "Lost in the Middle"-Problem seines KI-Modells Claude 2.1 zu lösen, indem der Antwort des Modells der Satz "Dies ist der relevanteste Satz im Kontext:" vorangestellt wird. Ob diese Methode für viele Aufgaben verlässlich skaliert und eine ähnliche Verbesserung für GPT-4 (Turbo) bringt, müssen Tests zeigen.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forscher von Patronus AI haben herausgefunden, dass große Sprachmodelle wie GPT-4 Turbo von OpenAI bei der Beantwortung von Fragen zu SEC-Berichten häufig versagen, was die Herausforderungen beim Einsatz von KI in regulierten Branchen wie der Finanzwelt verdeutlicht.
  • Im Test von Patronus AI erreichte das beste Modell, GPT-4 Turbo, bei der Beantwortung von Fragen zu einem Finanzbericht nur eine Genauigkeit von 79 Prozent, obwohl zusammen mit der Frage fast der gesamte Bericht zur Verfügung gestellt wurde.
  • Eine mögliche Lösung könnte darin bestehen, KI-Systeme durch verbesserte Prompts besser mit der spezifischen Aufgabe vertraut zu machen, um ihre Fähigkeit zu verbessern, relevante Informationen zu extrahieren. Es bleibt jedoch offen, ob solche Ansätze das Problem generell oder nur in bestimmten Szenarien lösen können.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!