Die neueste Version von Googles KI-Modell Gemini erzielt Bestwerte in fast allen Testkategorien der Chatbot-Arena und teilt sich nun den Spitzenplatz mit OpenAIs GPT-4o.
Die Testplattform lmarena.ai hat die neueste Version von Googles Sprachmodell Gemini (Exp-1114) mit über 6.000 Community-Bewertungen evaluiert. Das Modell teilt sich nun den ersten Platz in der Gesamtwertung mit OpenAIs GPT-4o.
Konkret führt Gemini-Exp-1114 die Ranglisten in den Kategorien Mathematik, Bildverarbeitung und kreatives Schreiben an. Bei Programmieraufgaben erreicht das Modell den dritten Platz. Die Vergleichstests zeigen: Gemini gewinnt 50 Prozent der direkten Vergleiche gegen GPT-4o, 56 Prozent gegen o1-preview und 62 Prozent gegen Claude 3.5 Sonnet.
Ohne Stil-Bonus rutscht Gemini Exp-1114 auf Platz 4
Die gute Positionierung ändert sich jedoch, sobald die Stilkontrolle mit einberechnet wird. Die Kategorie "Style Control" bewertet die reine inhaltliche Leistung der KI-Modelle, bereinigt um Stilfaktoren wie Textlänge oder Formatierung. Dabei werden Effekte wie die Anzahl der Überschriften, Aufzählungszeichen oder die Gesamtlänge der Antworten herausgerechnet.
Diese Methode soll verhindern, dass Modelle allein durch längere oder optisch aufbereitete Antworten besser bewertet werden. In dieser bereinigten Wertung schneidet Gemini schlechter ab und landet nur auf Platz vier - ein Hinweis darauf, dass ein Teil seines guten Gesamtergebnisses auf Stilfaktoren zurückzuführen ist.
Die experimentelle Gemini-Version ist über Googles AI Studio Plattform öffentlich zugänglich.
Gemini 2 oder nur ein kleines Update?
Gemini wurde im Dezember 2023 vorgestellt und erhielt im Februar 2024 ein Update auf Version 1.5. Die aktuelle Pro-Variante verarbeitet bis zu eine Million Token, eine Beta-Version bis zu zehn Millionen Token. Das System verarbeitet Text, Bilder, Audio, Video und Code. Google nutzt Gemini in verschiedenen Produkten wie Workspace, der Google-Suche und der Gemini-App.
Gerüchteweise plant Google Gemini 2 noch im Dezember vorzustellen, die Leistung soll jedoch hinter den Erwartungen zurückgeblieben sein. Ob es sich bei der neuen experimentellen Version um eine Variante von Gemini 2 handelt, ist bisher unklar.