Inhalt
summary Zusammenfassung

Eine Studie bestätigt, was als Anekdote immer wieder durchs Netz geistert: ChatGPT kann akademische Leistungen erreichen, die mit denen von Studierenden vergleichbar sind.

Eine in Scientific Reports veröffentlichte Studie verglich die Leistung von Studierenden mit der von ChatGPT bei den gleichen Aufgaben. In einem Experiment wurden zunächst Dozenten der New York University Abu Dhabi (NYUAD) gebeten, zehn Fragen aus ihren jeweiligen Vorlesungen zusammen mit drei zufällig ausgewählten Studierendenantworten zu jeder Frage zur Verfügung zu stellen.

Die Forscherinnen und Forscher verwendeten dann ChatGPT, um drei verschiedene Antworten auf jede Frage zu generieren. Die Fragen wurden direkt in ChatGPT eingegeben, ohne zusätzlichen Kontext im Prompt.

Aus der Studie geht nicht hervor, ob GPT-3.5 oder GPT-4 verwendet wurde, obwohl in den Referenzen auf GPT-4 verwiesen wird. Falls GPT-3.5 verwendet wurde, sollten die generierten KI-Antworten noch deutlich ausbaufähig sein.

Anzeige
Anzeige

ChatGPT ist in 9 von 32 Fächern mindestens auf dem gleichen Niveau

Nach der Generierung der ChatGPT-Antworten wurden diese mit den Antworten der Studierenden gemischt und von drei verschiedenen Gutachtern bewertet. ChatGPT erzielte in neun von 32 Fächern vergleichbare oder bessere Ergebnisse als die menschlichen Studierenden. Diese neun Fächer waren

  • Data Structures
  • Introduction to Public Policy
  • Quantitative Synthetic Biology
  • Cyberwarfare
  • Object Oriented Programming
  • Structure and Properties of Civil Engineering Materials
  • Biopsychology
  • Climate/Change
  • Management and Organizations

Die KI überzeugte primär in Bereichen, in denen umfangreiches Faktenwissen gefragt war. Im Kurs "Introduction to Public Policy" erzielte ChatGPT im Durchschnitt mehr als doppelt so viele Punkte wie die Studierenden. Bei mathematischen und wirtschaftswissenschaftlichen Aufgaben, die höhere Anforderungen an kognitive Prozesse stellten, hatten die Studierenden hingegen die Nase vorn.

Bild: Ibrahim, H., Liu, F., Asim, R. et al.

KI-Text-Detektoren versagen

Die Forschenden testen auch, ob sie mit dem KI-Textklassifizierer von OpenAI, den die Firma wegen Unzuverlässigkeit bereits zurückgezogen hat, und mit GPTZero zuverlässig menschliche von maschinellen Texten unterscheiden können.

Das OpenAI-Tool klassifizierte fünf Prozent der menschlichen Texte fälschlicherweise als Maschinentexte, bei GPTZero waren es sogar 18 Prozent. Ein katastrophales Ergebnis, bedenkt man die möglichen Konsequenzen für die betroffenen Studierenden, die fälschlicherweise des Betrugs bezichtigt werden könnten.

Umgekehrt erkannte das OpenAI-Tool 49 Prozent der maschinell erstellten Texte als menschlich, bei GPTZero waren es 32 Prozent. Die Durchlässigkeit für mögliche KI-Texte wäre also bei beiden Fällen weiter hoch.

Empfehlung

Dieses Ergebnis gewinnt durch eine ebenfalls im Rahmen der Studie durchgeführte Befragung von 1.601 Studierenden und Lehrenden in Brasilien, Indien, Japan, den USA und Großbritannien an Bedeutung: 74 Prozent der Studierenden wollen ChatGPT für ihre Arbeiten nutzen. 70 Prozent der Lehrenden wollen diese Nutzung als Plagiat melden, wenn sie auffällt.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie verglich ChatGPT mit menschlichen Studierenden in akademischen Tests, wobei die KI in neun von 32 Fächern vergleichbare oder bessere Ergebnisse erzielte.
  • Besonders gut schnitt ChatGPT in Fächern ab, die ein breites Faktenwissen erfordern, während menschliche Studierende bei mathematischen und wirtschaftswissenschaftlichen Aufgaben die Nase vorn hatten.
  • KI-Textdetektoren, die zwischen menschlichem und maschinellem Text unterscheiden sollen, versagten dagegen auf ganzer Linie.
  • Das ist problematisch, denn in einer begleitenden Umfrage gaben 74 Prozent der Studierenden an, ChatGPT nutzen zu wollen, während 70 Prozent der Lehrenden angaben, entsprechende Texte als Plagiate einzustufen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!