Um OpenAIs Sprachmodell GPT-3 besser zu machen, experimentieren KI-Forschende auf Twitter mit dem Einsatz von Python-Interpretern.
Als OpenAI GPT-3 im Mai 2020 vorstellte, beeindruckte die Leistung des großen Sprachmodells: Kein anderes Modell konnte vorher so überzeugende Texte schreiben. Sogar ein bisschen Mathe kann das Sprachmodell.
In den Wochen danach entdeckten Forschende weitere Anwendungsmöglichkeiten für GPT-3, etwa das Verfassen von simplem HTML-Code. OpenAI verfeinerte diese Fähigkeit später mit Codex.
OpenAIs GPT-3 generiert viel Nonsens
Doch mit dem Hype kamen auch Kritik: GPT-3 rasselte schnell durch eine Variante des Turing-Tests. Es kann nicht logisch schlussfolgern, somit auch keine komplexeren mathematischen Operationen durchführen und hat keinen Zugriff auf Datenbanken im Internet, um Fakten zu prüfen. Dadurch generiert das Modell viel Nonsens - Halluzinieren heißt das im Fachjargon - und reproduziert Stereotype. Auch OpenAI Mitgründer Sam Altman warnte vor zu viel Hype um das Sprachmodell.
Seitdem hat OpenAI an Möglichkeiten geforscht, einige dieser Einschränkungen zu beheben. Die im Januar 2022 veröffentlichten InstructGPT-Modelle sind etwa weniger toxisch und folgen besser Anweisungen. Das WebGPT-Projekt untersucht, wie GPT-Modelle das Internet befragen können.
Twitter-Community gibt GPT-3 Zugang zu Python-Interpreter
Auf Twitter hat der KI-Forscher Sergey Karayev nun ein neues Experiment vorgestellt: Er hat OpenAIs Sprachmodell mit einem Python-Interpreter verknüpft. Karayev nutzt dafür einen Text-Prompt für GPT-3, der dem Modell beibringt, Antworten auf Fragen als ein Python-Statement bzw. ein kleines Programm zu formulieren.
Dieses wird dann von einem Python-Interpreter in der Cloud ausgeführt und die Antwort an die Nutzenden ausgespielt.
Here's a brief glimpse of our INCREDIBLE near future.
GPT-3 armed with a Python interpreter can
· do exact math
· make API requests
· answer in unprecedented waysThanks to @goodside and @amasad for the idea and repl!
Play with it: https://t.co/uY2nqtdRjp pic.twitter.com/JnkiUyTQx1
— Sergey Karayev (@sergeykarayev) September 12, 2022
Mit dieser simplen Ergänzung kann GPT-3 etwa deutlich schwierigere mathematische Aufgaben lösen oder API-Anfragen stellen. Damit erhält GPT-3 beschränkten Zugriff auf das Internet und kann etwa aktuelle Börsenkurse ausgeben.
Ein anderer Twitter-Nutzer zeigt, wie GPT-3 dank Python-Interpreter eine Kugel mit der Matplotlib darstellen kann.
"show me a sphere using matplotlib but no other external libraries" pic.twitter.com/biARbDcI1J
— kenneth cassel (@KennethCassel) September 12, 2022
GPT-3 wird ein bisschen "neurosymbolisch" mit dem Python-Interpreter
Karayev bezeichnet sein kleines Experiment als einen Ausblick in eine kurz bevorstehende, unglaubliche Zukunft. Schon bald könnte GPT-3 mit dieser Methode das Web durchsuchen, indem es HTML verarbeitet oder auf zahlreiche frei verfügbare APIs zurückgreifen.
Da das Programm auch Code generieren kann, der etwa eine Festplatte löscht, rät er dringend davon ab, das Experiment auf einem lokalen Computer laufen zu lassen.
Kognitionsforscher Gary Marcus bezeichnet das Experiment auf Twitter trotz erwartbaren Einschränkungen als einen "schönen Schritt in Richtung Neurosymbolik, wobei ein neuronales Netz ein symbolisches System anruft, um etwas auszufüllen, was es selbst nicht zuverlässig tun kann."
Karayev hat seinen Code auf dem kostenlosen kollaborativen Browser-IDE Replit veröffentlicht. Wer das Projekt testen will, benötigt einen Replit-Account sowie einen OpenAI-API-Schlüssel. Dieser muss noch in der main.py-Datei eingefügt werden.