OpenAIs Sprachmodell GPT-3 kann Fakt und Fiktion nicht auseinanderhalten. Ein automatisierter Blick ins Web soll der Künstlichen Intelligenz dabei helfen.
OpenAIs riesiges Sprachmodell GPT-3 taugt für allerlei Textaufgaben, produziert jedoch immer wieder Fehlinformationen. Gerade bei Aufgaben, die sehr spezielles Faktenwissen über die Welt benötigen oder deren Antworten nicht Teil des Trainingsmaterials waren, „halluziniere“ GPT-3 regelmäßig falsche Informationen, so OpenAI.
Um gegen solche Falschinformationen vorzugehen, wendet sich OpenAI der Internetsuche zu: Eine neue Variante von GPT-3 hat gelernt, im Internet nach Antworten zu suchen.
OpenAI WebGPT sucht nach Antworten
Die Variante heißt WebGPT und kann Suchanfragen stellen, Links folgen, Webseiten hoch- und runterscrollen und die Quellen der gefundenen Antworten nachweisen. Das soll es erleichtern, dem KI-System Feedback zu geben und dessen Genauigkeit zu erhöhen.
OpenAIs WebGPT baut auf anderen Arbeiten des Unternehmens für sichere Künstliche Intelligenz auf: Im September 2020 zeigte ein Team ein KI-System für Zusammenfassungen, das mit menschlichem Feedback verbessert wurde. Im September 2021 folgte dann ein KI-System, das ganze Bücher zusammenfassen kann und für die Optimierung ebenfalls auf menschliches Feedback setzt.
Beide Systeme nutzen jedoch zusätzlich einen Algorithmus, der mit bestärkendem Lernen die menschlichen Präferenzen aus dem gegebenen Feedback lernt und anschließend das Zusammenfassungssystem weiter trainiert. Das reduziert das benötigte menschliche Feedback und die damit verbundenen Kosten.
WebGPT lernt von Mensch und Maschine
Auch WebGPT lernt von menschlichen Beispielen sowie einem Algorithmus, der analysiert hat, welche Arten von Antworten Menschen auf Fragen bevorzugen. Zuerst lernt WebGPT so anhand von Demonstrationen, einen Webbrowser zu nutzen, um Fragen zu beantworten. Das Feedback des zweiten Algorithmus verbessert dann die Genauigkeit der Antworten.
In Tests mit Fragen der ELI5- und TruthfulAQ-Datensätzen schneidet WebGPT deutlich besser als GPT-3 ab, bleibt aber weiter hinter der Qualität menschlicher Antworten zurück. Der Ansatz sei jedoch vielversprechend, so OpenAI, und soll nun mit Adverserial Training und automatisierten Debatten zwischen mehreren Modellen verbessert werden.
OpenAI warnt vor Manipulation und Internetzugriff
Laut OpenAI bergen bessere Versionen von WebGPT jedoch auch Risiken. So vermittle der automatische Quellennachweis eine gewisse Autorität, die nicht immer angebracht sei, da die Qualität der Quelle nicht überprüft werde. Ein besseres System könnte außerdem ausschließlich Quellen herauspicken, von denen es erwarte, dass Menschen diese für überzeugend hielten – auch wenn die Quelle Fehler enthalte.
Das aktuelle WebGPT habe nur einen eingeschränkten Internetzugriff und sei nach einer Einschätzung der Kapazitäten von GPT-3 nicht in der Lage, diesen Zugriff zu missbrauchen. Mit besseren Modellen steige jedoch das Risiko, einem KI-System vollständigen Internetzugriff zu geben, schreibt OpenAI. Das Unternehmen entwickelt daher bereits interne Sicherheitsmechanismen.