Inhalt
summary Zusammenfassung

Die neueste Version von Googles KI-Modell Gemini erzielt Bestwerte in fast allen Testkategorien der Chatbot-Arena und teilt sich nun den Spitzenplatz mit OpenAIs GPT-4o.

Anzeige

Die Testplattform lmarena.ai hat die neueste Version von Googles Sprachmodell Gemini (Exp-1114) mit über 6.000 Community-Bewertungen evaluiert. Das Modell teilt sich nun den ersten Platz in der Gesamtwertung mit OpenAIs GPT-4o.

Konkret führt Gemini-Exp-1114 die Ranglisten in den Kategorien Mathematik, Bildverarbeitung und kreatives Schreiben an. Bei Programmieraufgaben erreicht das Modell den dritten Platz. Die Vergleichstests zeigen: Gemini gewinnt 50 Prozent der direkten Vergleiche gegen GPT-4o, 56 Prozent gegen o1-preview und 62 Prozent gegen Claude 3.5 Sonnet.

Ohne Stil-Bonus rutscht Gemini Exp-1114 auf Platz 4

Die gute Positionierung ändert sich jedoch, sobald die Stilkontrolle mit einberechnet wird. Die Kategorie "Style Control" bewertet die reine inhaltliche Leistung der KI-Modelle, bereinigt um Stilfaktoren wie Textlänge oder Formatierung. Dabei werden Effekte wie die Anzahl der Überschriften, Aufzählungszeichen oder die Gesamtlänge der Antworten herausgerechnet.

Anzeige
Anzeige

Diese Methode soll verhindern, dass Modelle allein durch längere oder optisch aufbereitete Antworten besser bewertet werden. In dieser bereinigten Wertung schneidet Gemini schlechter ab und landet nur auf Platz vier - ein Hinweis darauf, dass ein Teil seines guten Gesamtergebnisses auf Stilfaktoren zurückzuführen ist.

Die experimentelle Gemini-Version ist über Googles AI Studio Plattform öffentlich zugänglich.

Gemini 2 oder nur ein kleines Update?

Gemini wurde im Dezember 2023 vorgestellt und erhielt im Februar 2024 ein Update auf Version 1.5. Die aktuelle Pro-Variante verarbeitet bis zu eine Million Token, eine Beta-Version bis zu zehn Millionen Token. Das System verarbeitet Text, Bilder, Audio, Video und Code. Google nutzt Gemini in verschiedenen Produkten wie Workspace, der Google-Suche und der Gemini-App.

Gerüchteweise plant Google Gemini 2 noch im Dezember vorzustellen, die Leistung soll jedoch hinter den Erwartungen zurückgeblieben sein. Ob es sich bei der neuen experimentellen Version um eine Variante von Gemini 2 handelt, ist bisher unklar.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Googles KI-Modell Gemini (Exp-1114) erreicht in der Chatbot-Arena mit über 6.000 Community-Bewertungen den geteilten ersten Platz mit OpenAIs GPT-4o und führt in den Kategorien Mathematik, Bildverarbeitung und kreatives Schreiben.
  • Ohne Stilkontrolle fällt Gemini auf Platz vier zurück. Die bereinigte Wertung zeigt, dass ein Teil des guten Gesamtergebnisses auf Stilfaktoren wie Textlänge und Formatierung zurückzuführen ist.
  • Das Modell gewinnt 50 Prozent der direkten Vergleiche gegen GPT-4o, 56 Prozent gegen o1-preview und 62 Prozent gegen Claude 3.5 Sonnet. Die experimentelle Version ist über Googles AI Studio Plattform öffentlich verfügbar.
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!