Ein leistungsstarkes neues KI-Modell namens "gpt2-chatbot" zeigt Fähigkeiten, die vereinzelt über die von GPT-4 hinausgehen, und sorgt für heftige Spekulationen.
Das Modell mit dem Namen "gpt2-chatbot" tauchte ohne große Ankündigung in der LMSYS Org Chatbot-Arena auf, einer Website, auf der KI-Sprachmodelle verglichen werden. Seine Leistung zog jedoch schnell die Aufmerksamkeit der Tester auf sich.
"Es ist natürlich unmöglich zu sagen, wer ihn entwickelt hat. Aber ich würde sagen, dass es mindestens so gut ist wie GPT-4", sagt Andrew Gao, ein KI-Forscher an der Stanford University, der das Modell seit seiner Veröffentlichung auf LMSYS verfolgt hat.
So habe gpt2-chatbot bereits beim ersten Versuch eine Aufgabe der renommierten Internationalen Mathematik-Olympiade gelöst - eine Leistung, die er als "unglaublich schwierig" bezeichnete.
uh.... gpt2-chatbot just solved an International Math Olympiad (IMO) problem in one-shot
the IMO is insanely hard. only the FOUR best math students in the USA get to compete
prompt + its thoughts 🧵 https://t.co/CuO0ToJmb9 pic.twitter.com/3xxWPvtmuG
— Andrew Gao (@itsandrewgao) April 29, 2024
Laut Ethan Mollick, Professor an der Wharton School, schneidet das Modell auch bei komplexen Denkaufgaben wie dem Schreiben von Code besser ab als GPT-4. Chase McCoy, Gründungsingenieur bei CodeGen, sagte, dass gpt2-chatbot "bei allen Codierungsaufgaben, die wir zum Testen neuer Modelle verwenden, besser abschneidet" als GPT-4 oder Claude von Anthropic.
Auf Twitter gibt es weitere Beispiele: Alvaro Cintas generierte ein Snake-Game mit dem ersten Versuch.
This was the game it gave me! Code it right in the first try pic.twitter.com/ihMhBR9BAo
— Alvaro Cintas (@dr_cintas) April 29, 2024
Sully Omar, Co-Founder von Cognosys ließ das Modell ein Einhorn malen - ein Test der aus Microsofts umstrittenen "Sparks of AGI"-Paper stammt.
Gpt2 drawing unicorns vs Claude opus
Whatever this model is, its really good. pic.twitter.com/XHDMWaFdW9
— Sully (@SullyOmarr) April 29, 2024
GPT-4.5 oder etwas völlig anderes?
Die starke Leistung und Hinweise auf den von OpenAI verwendeten Tokenizer lassen vermuten, dass gpt2-chatbot von OpenAI stammt und ein Test von GPT-4.5 oder einem anderen neuen Modell der Firma sein könnte. LMSYS bestätigte, dass es Modellanbietern auch die Möglichkeit gibt, ihre Modelle anonym zu testen. Das Modell beschreibt sich auch selbst als "ChatGPT, a large linguistic model trained by OpenAI, based on GPT-4 architecture".
Allerdings sind Selbstbeschreibungen von KI-Modellen nicht immer zuverlässig und einzelne Tester berichten von mehr Halluzinationen als GPT-4 Turbo. OpenAIs CEO Sam Altman reagierte mit einem Post auf X auf die Gerüchte: "Ich habe eine Schwäche für gpt2." Kurz: Obwohl die Ähnlichkeiten zu früheren OpenAI-Kreationen eine mögliche Verbindung nahelegen, fehlen bisher schlüssige Beweise.
Es ist also auch möglich, dass eine weniger bekannte Gruppe das Modell veröffentlicht hat, um ihre Fähigkeiten zu demonstrieren und Aufmerksamkeit zu erregen.