ChatGPT ist ein Multitalent, wird aber von spezialisierten Methoden abgehangen. Der Chatbot wird Künstliche Intelligenz dennoch für immer verändern, sagen Forschende.
Ein Team der polnischen University of Science and Technology in Wrocław zeigt in einer neuen Veröffentlichung, wie der ChatGPT von OpenAI in zahlreichen Benchmarks aus dem Bereich der maschinellen Verarbeitung natürlicher Sprache (NLP) abschneidet.
Dafür haben die Forschenden den Chatbot in 25 verschiedenen Aufgaben mit den derzeit besten KI-Modellen verglichen. Ihr Fazit: ChatGPT ist ein "Jack of trades, master of none".
Forschende entwickeln eigene API, um über 38.000 Anfragen an ChatGPT zu senden
Bisher wurde ChatGPT vor allem im Bereich generativer Aufgaben getestet, also Aufgaben, bei denen das KI-Modell beispielsweise Texte schreiben oder zusammenfassen muss, oder bei der Beantwortung von Fragen, etwa im juristischen oder medizinischen Kontext. Im Gegensatz dazu konzentriert sich das polnische Team auf die analytischen Fähigkeiten, insbesondere auf das semantische und pragmatische Verständnis des OpenAI-Chatbots.
Dazu gehören typische NLP-Probleme wie einfache Textklassifikationen nach Humor oder Sarkasmus, komplexere wie grammatikalische Korrektheit oder Stimmungsanalyse und solche, bei denen mehrdeutige Wörter richtig eingeordnet oder logische Schlussfolgerungen gezogen werden müssen.
Solche Aufgaben sind über die Forschung hinaus auch für Unternehmen relevant, die damit beispielsweise Produktrezensionen automatisch klassifizieren oder Inhalte KI-gestützt moderieren können.
Für jeden Benchmark erstellt das Team eigene Prompts, die ChatGPT dazu veranlassen, Antworten in der richtigen Formatierung zu liefern. Um die große Menge an Anfragen - über 38.000 Prompts - zu bewältigen, nutzen die Forschenden eine eigens entwickelte PyGPT-API und bis zu 20 OpenAI-Accounts.
Wie schlägt sich ChatGPT abseits generativer Aufgaben?
In allen 25 Benchmarks schneidet ChatGPT immer schlechter ab als die derzeit besten KI-Modelle für die jeweiligen Aufgaben. Im Durchschnitt lag die Qualität der spezialisierten Modelle bei 73,7 Prozent, die von ChatGPT bei 56,6 Prozent. Besonders schwach war ChatGPT bei Aufgaben, die sich auf subjektive Probleme der emotionalen Wahrnehmung und der individuellen Interpretation von Inhalten beziehen.
Ohne diese insgesamt acht Aufgaben steigt die durchschnittliche Qualität von ChatGPT auf 69,7 Prozent, die der anderen Methoden auf 80 Prozent. In einigen Fällen kann die Qualität von ChatGPT durch einige zusätzliche Beispiele im Prompt um einige Prozentpunkte verbessert werden.
Die Leistung von ChatGPT liegt also immer noch unter den aktuellen Modellen - aber abgesehen von den "emotionalen Aufgaben" ist der Abstand nicht sehr groß. ChatGPT ist also ein Alleskönner, ohne jedoch eine Aufgabe wirklich zu beherrschen.
ChatGPT als KI-Booster
Die Forschenden erwarten daher, dass ChatGPT auch in klassischen NLP-Bereichen eingesetzt wird. Einen Vorteil sieht das Team in der Möglichkeit, Rückfragen zu stellen, um die Ergebnisse zu beeinflussen. Ein Nachteil sei die geringere Genauigkeit und der Beta-Status des Systems.
ChatGPT bietet außerdem eine einzigartige Selbsterklärungsfunktion, die es Menschen erleichtere, die Aussagen des Bots zu verstehen. Die Forschenden sind daher "fest davon überzeugt, dass ChatGPT die Entwicklung verschiedener KI-Technologien beschleunigen und unser tägliches Leben tiefgreifend verändern kann". ChatGPT und ähnliche KI-Systeme würden die KI-Forschung vorantreiben und eine "wirtschaftliche und soziale KI-Revolution" auslösen.
Als Nächstes will das Team ChatGPT in weiteren Benchmarks für logisches Schlussfolgern sowie verschiedene Prompt-Engineering-Methoden testen.