Chatbot Arena: OpenAI o1-preview und o1-mini ziehen an Konkurrenz vorbei

19. September 2024

OpenAI

Kurz & Knapp

OpenAI neue KI-Modelle o1-preview und o1-mini erzielen in der Chatbot-Arena Bestwerte in verschiedenen Kategorien. o1-preview belegt den ersten Platz in allen bewerteten Bereichen, während o1-mini besonders bei technischen Aufgaben gut abschneidet.
Die Leistung der Modelle wurde anhand von über 6.000 Community-Bewertungen evaluiert. Dabei zeigten sich die Stärken von o1-preview und o1-mini vor allem bei mathematischen Aufgaben, komplexen Prompts und Programmierung.
Es ist jedoch zu beachten, dass die neuen Modelle bisher deutlich weniger Bewertungen erhalten haben als etablierte Systeme wie GPT-4o oder Claude 3.5. Diese geringe Stichprobengröße könnte die Aussagekraft der Ergebnisse einschränken und zu Verzerrungen führen.

OpenAIs neue KI-Modelle o1-preview und o1-mini erzielen in der Chatbot-Arena Bestwerte, doch die geringe Anzahl der Bewertungen könnte das Ergebnis verzerren.

OpenAIs neue KI-Modelle o1-preview und o1-mini haben in der Chatbot-Arena beeindruckende Ergebnisse erzielt. Laut einer veröffentlichten Übersicht belegt o1-preview den ersten Platz in allen bewerteten Kategorien, darunter Gesamtleistung, Sicherheit und technische Fähigkeiten. Das auf MINT-Aufgaben spezialisierte o1-mini teilte sich kurzfristig den zweiten Gesamtrang mit einer Anfang September online gegangenen Version von GPT-4o und führt in den technischen Bereichen.

Die Chatbot-Arena, eine Plattform zum Vergleich verschiedener KI-Modelle, hat die Leistung der neuen OpenAI-Systeme mit über 6.000 Community-Bewertungen evaluiert. Dabei zeigte sich die Überlegenheit von o1-preview und o1-mini, insbesondere bei mathematischen Aufgaben, harten Prompts und Programmierung.

Allerdings ist zu beachten, dass o1-preview und o1-mini mit jeweils knapp 3.000 Bewertungen bisher deutlich weniger Votes erhalten haben als etablierte Modelle wie GPT-4o oder Claude 3.5 von Anthropic. Diese geringe Stichprobengröße könnte zu Verzerrungen in der Bewertung führen und die Aussagekraft der Ergebnisse einschränken.

OpenAIs o1 zeigt starke Leistung in Mathematik und Coding

o1 soll durch längeres "Nachdenken" vor der Antwort einen neuen Standard für KI-Logik setzen. Noam Brown, Mitentwickler des Modells, erklärt: "Wir sind nicht mehr durch das Pre-Training eingeschränkt. Wir können jetzt auch die Rechenleistung für Inferenzen skalieren."

Die o1-Modelle sind jedoch nicht in allen Bereichen besser als der Vorgänger GPT-4o. Viele Aufgaben erfordern kein komplexes logisches Denken, und in manchen Fällen ist eine schnelle Antwort von GPT-4o ausreichend.

Ein Diagramm von Lmsys zur Modellstärke im Bereich Mathematik zeigt wie erwartet deutlich, dass o1-preview und o1-mini mit einem Wert von über 1360 deutlich über den Leistungen anderer Modelle liegen.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Chatbot Arena: OpenAI o1-preview und o1-mini ziehen an Konkurrenz vorbei

Kurz & Knapp

OpenAIs o1 zeigt starke Leistung in Mathematik und Coding

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.