Testet OpenAI ChatGPT 2.0? "gpt2-chatbot" schreibt Code besser als GPT-4 und Claude

Ein leistungsstarkes neues KI-Modell namens "gpt2-chatbot" zeigt Fähigkeiten, die vereinzelt über die von GPT-4 hinausgehen, und sorgt für heftige Spekulationen.

Das Modell mit dem Namen "gpt2-chatbot" tauchte ohne große Ankündigung in der LMSYS Org Chatbot-Arena auf, einer Website, auf der KI-Sprachmodelle verglichen werden. Seine Leistung zog jedoch schnell die Aufmerksamkeit der Tester auf sich.

"Es ist natürlich unmöglich zu sagen, wer ihn entwickelt hat. Aber ich würde sagen, dass es mindestens so gut ist wie GPT-4", sagt Andrew Gao, ein KI-Forscher an der Stanford University, der das Modell seit seiner Veröffentlichung auf LMSYS verfolgt hat.

So habe gpt2-chatbot bereits beim ersten Versuch eine Aufgabe der renommierten Internationalen Mathematik-Olympiade gelöst - eine Leistung, die er als "unglaublich schwierig" bezeichnete.

uh.... gpt2-chatbot just solved an International Math Olympiad (IMO) problem in one-shot

the IMO is insanely hard. only the FOUR best math students in the USA get to compete

prompt + its thoughts 🧵 https://t.co/CuO0ToJmb9 pic.twitter.com/3xxWPvtmuG

— Andrew Gao (@itsandrewgao) April 29, 2024

Laut Ethan Mollick, Professor an der Wharton School, schneidet das Modell auch bei komplexen Denkaufgaben wie dem Schreiben von Code besser ab als GPT-4. Chase McCoy, Gründungsingenieur bei CodeGen, sagte, dass gpt2-chatbot "bei allen Codierungsaufgaben, die wir zum Testen neuer Modelle verwenden, besser abschneidet" als GPT-4 oder Claude von Anthropic.

Auf Twitter gibt es weitere Beispiele: Alvaro Cintas generierte ein Snake-Game mit dem ersten Versuch.

This was the game it gave me! Code it right in the first try pic.twitter.com/ihMhBR9BAo

— Alvaro Cintas (@dr_cintas) April 29, 2024

Sully Omar, Co-Founder von Cognosys ließ das Modell ein Einhorn malen - ein Test der aus Microsofts umstrittenen "Sparks of AGI"-Paper stammt.

Gpt2 drawing unicorns vs Claude opus

Whatever this model is, its really good. pic.twitter.com/XHDMWaFdW9

— Sully (@SullyOmarr) April 29, 2024

GPT-4.5 oder etwas völlig anderes?

Die starke Leistung und Hinweise auf den von OpenAI verwendeten Tokenizer lassen vermuten, dass gpt2-chatbot von OpenAI stammt und ein Test von GPT-4.5 oder einem anderen neuen Modell der Firma sein könnte. LMSYS bestätigte, dass es Modellanbietern auch die Möglichkeit gibt, ihre Modelle anonym zu testen. Das Modell beschreibt sich auch selbst als "ChatGPT, a large linguistic model trained by OpenAI, based on GPT-4 architecture".

Allerdings sind Selbstbeschreibungen von KI-Modellen nicht immer zuverlässig und einzelne Tester berichten von mehr Halluzinationen als GPT-4 Turbo. OpenAIs CEO Sam Altman reagierte mit einem Post auf X auf die Gerüchte: "Ich habe eine Schwäche für gpt2." Kurz: Obwohl die Ähnlichkeiten zu früheren OpenAI-Kreationen eine mögliche Verbindung nahelegen, fehlen bisher schlüssige Beweise.

Empfehlung

KI in der Praxis

Orion und Strawberry: Das sollen die nächsten KI-Fortschritte von OpenAI sein

Es ist also auch möglich, dass eine weniger bekannte Gruppe das Modell veröffentlicht hat, um ihre Fähigkeiten zu demonstrieren und Aufmerksamkeit zu erregen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Testet OpenAI ChatGPT 2.0? "gpt2-chatbot" schreibt Code besser als GPT-4 und Claude

GPT-4.5 oder etwas völlig anderes?

Orion und Strawberry: Das sollen die nächsten KI-Fortschritte von OpenAI sein

Neue Studie relativiert Apples Kritik an KI-Reasoning

François Chollet über das Ende der Skalierung, ARC-3 und seinen Weg zu AGI

Meta plant proaktive KI-Bots für mehr Nutzerbindung

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Neue Studie relativiert Apples Kritik an KI-Reasoning

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Testet OpenAI ChatGPT 2.0? "gpt2-chatbot" schreibt Code besser als GPT-4 und Claude

GPT-4.5 oder etwas völlig anderes?

Artikel teilen

Bankverbindung