Inhalt
summary Zusammenfassung

OpenAIs neue KI-Modelle o1-preview und o1-mini erzielen in der Chatbot-Arena Bestwerte, doch die geringe Anzahl der Bewertungen könnte das Ergebnis verzerren.

Anzeige

OpenAIs neue KI-Modelle o1-preview und o1-mini haben in der Chatbot-Arena beeindruckende Ergebnisse erzielt. Laut einer veröffentlichten Übersicht belegt o1-preview den ersten Platz in allen bewerteten Kategorien, darunter Gesamtleistung, Sicherheit und technische Fähigkeiten. Das auf MINT-Aufgaben spezialisierte o1-mini teilte sich kurzfristig den zweiten Gesamtrang mit einer Anfang September online gegangenen Version von GPT-4o und führt in den technischen Bereichen.

Die Chatbot-Arena, eine Plattform zum Vergleich verschiedener KI-Modelle, hat die Leistung der neuen OpenAI-Systeme mit über 6.000 Community-Bewertungen evaluiert. Dabei zeigte sich die Überlegenheit von o1-preview und o1-mini, insbesondere bei mathematischen Aufgaben, harten Prompts und Programmierung.

Allerdings ist zu beachten, dass o1-preview und o1-mini mit jeweils knapp 3.000 Bewertungen bisher deutlich weniger Votes erhalten haben als etablierte Modelle wie GPT-4o oder Claude 3.5 von Anthropic. Diese geringe Stichprobengröße könnte zu Verzerrungen in der Bewertung führen und die Aussagekraft der Ergebnisse einschränken.

Anzeige
Anzeige

OpenAIs o1 zeigt starke Leistung in Mathematik und Coding

o1 soll durch längeres "Nachdenken" vor der Antwort einen neuen Standard für KI-Logik setzen. Noam Brown, Mitentwickler des Modells, erklärt: "Wir sind nicht mehr durch das Pre-Training eingeschränkt. Wir können jetzt auch die Rechenleistung für Inferenzen skalieren."

Die o1-Modelle sind jedoch nicht in allen Bereichen besser als der Vorgänger GPT-4o. Viele Aufgaben erfordern kein komplexes logisches Denken, und in manchen Fällen ist eine schnelle Antwort von GPT-4o ausreichend.

Bild: Lmsys

Ein Diagramm von Lmsys zur Modellstärke im Bereich Mathematik zeigt wie erwartet deutlich, dass o1-preview und o1-mini mit einem Wert von über 1360 deutlich über den Leistungen anderer Modelle liegen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI neue KI-Modelle o1-preview und o1-mini erzielen in der Chatbot-Arena Bestwerte in verschiedenen Kategorien. o1-preview belegt den ersten Platz in allen bewerteten Bereichen, während o1-mini besonders bei technischen Aufgaben gut abschneidet.
  • Die Leistung der Modelle wurde anhand von über 6.000 Community-Bewertungen evaluiert. Dabei zeigten sich die Stärken von o1-preview und o1-mini vor allem bei mathematischen Aufgaben, komplexen Prompts und Programmierung.
  • Es ist jedoch zu beachten, dass die neuen Modelle bisher deutlich weniger Bewertungen erhalten haben als etablierte Systeme wie GPT-4o oder Claude 3.5. Diese geringe Stichprobengröße könnte die Aussagekraft der Ergebnisse einschränken und zu Verzerrungen führen.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!