Inhalt
summary Zusammenfassung

ChatGPT ist ein Multitalent, wird aber von spezialisierten Methoden abgehangen. Der Chatbot wird Künstliche Intelligenz dennoch für immer verändern, sagen Forschende.

Anzeige

Ein Team der polnischen University of Science and Technology in Wrocław zeigt in einer neuen Veröffentlichung, wie der ChatGPT von OpenAI in zahlreichen Benchmarks aus dem Bereich der maschinellen Verarbeitung natürlicher Sprache (NLP) abschneidet.

Dafür haben die Forschenden den Chatbot in 25 verschiedenen Aufgaben mit den derzeit besten KI-Modellen verglichen. Ihr Fazit: ChatGPT ist ein "Jack of trades, master of none".

Forschende entwickeln eigene API, um über 38.000 Anfragen an ChatGPT zu senden

Bisher wurde ChatGPT vor allem im Bereich generativer Aufgaben getestet, also Aufgaben, bei denen das KI-Modell beispielsweise Texte schreiben oder zusammenfassen muss, oder bei der Beantwortung von Fragen, etwa im juristischen oder medizinischen Kontext. Im Gegensatz dazu konzentriert sich das polnische Team auf die analytischen Fähigkeiten, insbesondere auf das semantische und pragmatische Verständnis des OpenAI-Chatbots.

Anzeige
Anzeige

Dazu gehören typische NLP-Probleme wie einfache Textklassifikationen nach Humor oder Sarkasmus, komplexere wie grammatikalische Korrektheit oder Stimmungsanalyse und solche, bei denen mehrdeutige Wörter richtig eingeordnet oder logische Schlussfolgerungen gezogen werden müssen.

Solche Aufgaben sind über die Forschung hinaus auch für Unternehmen relevant, die damit beispielsweise Produktrezensionen automatisch klassifizieren oder Inhalte KI-gestützt moderieren können.

Für jeden Benchmark erstellt das Team eigene Prompts, die ChatGPT dazu veranlassen, Antworten in der richtigen Formatierung zu liefern. Um die große Menge an Anfragen - über 38.000 Prompts - zu bewältigen, nutzen die Forschenden eine eigens entwickelte PyGPT-API und bis zu 20 OpenAI-Accounts.

Wie schlägt sich ChatGPT abseits generativer Aufgaben?

In allen 25 Benchmarks schneidet ChatGPT immer schlechter ab als die derzeit besten KI-Modelle für die jeweiligen Aufgaben. Im Durchschnitt lag die Qualität der spezialisierten Modelle bei 73,7 Prozent, die von ChatGPT bei 56,6 Prozent. Besonders schwach war ChatGPT bei Aufgaben, die sich auf subjektive Probleme der emotionalen Wahrnehmung und der individuellen Interpretation von Inhalten beziehen.

Ohne diese insgesamt acht Aufgaben steigt die durchschnittliche Qualität von ChatGPT auf 69,7 Prozent, die der anderen Methoden auf 80 Prozent. In einigen Fällen kann die Qualität von ChatGPT durch einige zusätzliche Beispiele im Prompt um einige Prozentpunkte verbessert werden.

Empfehlung
Die Ergebnisse von 25 Benchmarks zeigen, wo die Stärken und Schwächen von ChatGPT liegen. | Bild: Kocoń et al.

Die Leistung von ChatGPT liegt also immer noch unter den aktuellen Modellen - aber abgesehen von den "emotionalen Aufgaben" ist der Abstand nicht sehr groß. ChatGPT ist also ein Alleskönner, ohne jedoch eine Aufgabe wirklich zu beherrschen.

ChatGPT als KI-Booster

Die Forschenden erwarten daher, dass ChatGPT auch in klassischen NLP-Bereichen eingesetzt wird. Einen Vorteil sieht das Team in der Möglichkeit, Rückfragen zu stellen, um die Ergebnisse zu beeinflussen. Ein Nachteil sei die geringere Genauigkeit und der Beta-Status des Systems.

ChatGPT bietet außerdem eine einzigartige Selbsterklärungsfunktion, die es Menschen erleichtere, die Aussagen des Bots zu verstehen. Die Forschenden sind daher "fest davon überzeugt, dass ChatGPT die Entwicklung verschiedener KI-Technologien beschleunigen und unser tägliches Leben tiefgreifend verändern kann". ChatGPT und ähnliche KI-Systeme würden die KI-Forschung vorantreiben und eine "wirtschaftliche und soziale KI-Revolution" auslösen.

Der Überblick zeigt, wo das Team große Veränderungen durch ChatGPT und ähnliche KI-Systeme erwartet. | Bild: Kocoń et al.

Als Nächstes will das Team ChatGPT in weiteren Benchmarks für logisches Schlussfolgern sowie verschiedene Prompt-Engineering-Methoden testen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Forschende lassen ChatGPT in 25 NLP-Benchmarks gegen die derzeit besten KI-Modelle antreten. Das Ergebnis: ChatGPT ist ein Jack of all trades, master of none".
  • Dennoch erwartet das Team, dass ChatGPT und vergleichbare KI-Systeme auch für klassische NLP-Anwendungen eingesetzt werden können - unter anderem, weil sie ihre Ergebnisse erklären und sich interaktiv korrigieren lassen.
  • Die Forschenden erwarten, dass ChatGPT auch die KI-Entwicklung beschleunigen wird und sehen das System als Beginn einer "wirtschaftlichen und sozialen KI-Revolution".
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!