ChatGPT: Ein Allrounder ohne Stärken wird KI verändern

22. Februar 2023

Jonathan Kemper

ChatGPT ist ein Multitalent, wird aber von spezialisierten Methoden abgehangen. Der Chatbot wird Künstliche Intelligenz dennoch für immer verändern, sagen Forschende.

Ein Team der polnischen University of Science and Technology in Wrocław zeigt in einer neuen Veröffentlichung, wie der ChatGPT von OpenAI in zahlreichen Benchmarks aus dem Bereich der maschinellen Verarbeitung natürlicher Sprache (NLP) abschneidet.

Dafür haben die Forschenden den Chatbot in 25 verschiedenen Aufgaben mit den derzeit besten KI-Modellen verglichen. Ihr Fazit: ChatGPT ist ein "Jack of trades, master of none".

Forschende entwickeln eigene API, um über 38.000 Anfragen an ChatGPT zu senden

Bisher wurde ChatGPT vor allem im Bereich generativer Aufgaben getestet, also Aufgaben, bei denen das KI-Modell beispielsweise Texte schreiben oder zusammenfassen muss, oder bei der Beantwortung von Fragen, etwa im juristischen oder medizinischen Kontext. Im Gegensatz dazu konzentriert sich das polnische Team auf die analytischen Fähigkeiten, insbesondere auf das semantische und pragmatische Verständnis des OpenAI-Chatbots.

Dazu gehören typische NLP-Probleme wie einfache Textklassifikationen nach Humor oder Sarkasmus, komplexere wie grammatikalische Korrektheit oder Stimmungsanalyse und solche, bei denen mehrdeutige Wörter richtig eingeordnet oder logische Schlussfolgerungen gezogen werden müssen.

Solche Aufgaben sind über die Forschung hinaus auch für Unternehmen relevant, die damit beispielsweise Produktrezensionen automatisch klassifizieren oder Inhalte KI-gestützt moderieren können.

Für jeden Benchmark erstellt das Team eigene Prompts, die ChatGPT dazu veranlassen, Antworten in der richtigen Formatierung zu liefern. Um die große Menge an Anfragen - über 38.000 Prompts - zu bewältigen, nutzen die Forschenden eine eigens entwickelte PyGPT-API und bis zu 20 OpenAI-Accounts.

Wie schlägt sich ChatGPT abseits generativer Aufgaben?

In allen 25 Benchmarks schneidet ChatGPT immer schlechter ab als die derzeit besten KI-Modelle für die jeweiligen Aufgaben. Im Durchschnitt lag die Qualität der spezialisierten Modelle bei 73,7 Prozent, die von ChatGPT bei 56,6 Prozent. Besonders schwach war ChatGPT bei Aufgaben, die sich auf subjektive Probleme der emotionalen Wahrnehmung und der individuellen Interpretation von Inhalten beziehen.

Ohne diese insgesamt acht Aufgaben steigt die durchschnittliche Qualität von ChatGPT auf 69,7 Prozent, die der anderen Methoden auf 80 Prozent. In einigen Fällen kann die Qualität von ChatGPT durch einige zusätzliche Beispiele im Prompt um einige Prozentpunkte verbessert werden.

Die Ergebnisse von 25 Benchmarks zeigen, wo die Stärken und Schwächen von ChatGPT liegen. | Bild: Kocoń et al.

Die Leistung von ChatGPT liegt also immer noch unter den aktuellen Modellen - aber abgesehen von den "emotionalen Aufgaben" ist der Abstand nicht sehr groß. ChatGPT ist also ein Alleskönner, ohne jedoch eine Aufgabe wirklich zu beherrschen.

ChatGPT als KI-Booster

Die Forschenden erwarten daher, dass ChatGPT auch in klassischen NLP-Bereichen eingesetzt wird. Einen Vorteil sieht das Team in der Möglichkeit, Rückfragen zu stellen, um die Ergebnisse zu beeinflussen. Ein Nachteil sei die geringere Genauigkeit und der Beta-Status des Systems.

ChatGPT bietet außerdem eine einzigartige Selbsterklärungsfunktion, die es Menschen erleichtere, die Aussagen des Bots zu verstehen. Die Forschenden sind daher "fest davon überzeugt, dass ChatGPT die Entwicklung verschiedener KI-Technologien beschleunigen und unser tägliches Leben tiefgreifend verändern kann". ChatGPT und ähnliche KI-Systeme würden die KI-Forschung vorantreiben und eine "wirtschaftliche und soziale KI-Revolution" auslösen.

Der Überblick zeigt, wo das Team große Veränderungen durch ChatGPT und ähnliche KI-Systeme erwartet. | Bild: Kocoń et al.

Als Nächstes will das Team ChatGPT in weiteren Benchmarks für logisches Schlussfolgern sowie verschiedene Prompt-Engineering-Methoden testen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren