Inhalt
summary Zusammenfassung
Update
  • Aussage von Oriol Vinyals ergänzt

Update vom 27. Januar 2024:

Auch Oriol Vinyals, Deep-Learning-Leiter und Co-Lead von Gemini, meldet sich bei X zu Wort. Die Bewertung von Sprachmodellen sei "schwierig und nuanciert", akademische Bewertungen seien in die Datensätze geleakt.

Menschliche Bewertungen seien daher "viel besser". Umso mehr freue er sich, dass das kostenlose Bard Gemini Pro so weit oben im Leaderboard gelandet sei. "Ich freue mich auf die Veröffentlichung von Gemini Ultra", schreibt Vinyals.

Ursprünglicher Artikel vom 26. Januar 2024:

Anzeige
Anzeige

Googles Chatbot Bard wird von einem neuen Gemini-Modell angetrieben. Menschen bewerten es ähnlich gut wie GPT-4.

Googles AI-Chef Jeff Dean kündigt auf der X das neue Gemini-Modell an. Demnach handelt es sich um ein Modell der Gemini-Pro-Familie mit dem Zusatz "scale".

Dank der Gemini-Updates sei Bard im Vergleich zum Marktstart im März deutlich leistungsfähiger und verfüge über mehr Fähigkeiten, so Dean.

Was "scale" bedeutet, erklärt Dean nicht, aber der Name lässt vermuten, dass es sich um eine größere (skalierte) Version des bisherigen Pro-Modells handeln könnte, das laut Benchmarks nicht einmal an GPT-3.5 (kostenloses ChatGPT) herankommt. Oberhalb der Pro-Familie gibt es noch die unveröffentlichte Ultra-Variante.

GPT-Pro erreicht in der menschlichen Beurteilung GPT-4

Bemerkenswert ist, dass das neue Pro-Modell im neutralen Benchmark der Chatbot Arena auf Anhieb den zweiten Platz belegt, vor den beiden GPT-4-Modellen 0314 (März 2023) und 0613 (Sommer 2023), aber hinter dem GPT-4-Turbo (November 2023). Das neue Bard-Modell ist das erste, das in die GPT-4-Phalanx einbrechen kann.

Empfehlung
Bild: Chatbot Arena Leaderboard Screenshot

Die Chatbot-Arena verwendet das Elo-Bewertungssystem, das im Schach und E-Sport verwendet wird, um die Leistung verschiedener Sprachmodelle zu bewerten und zu vergleichen. In der Arena treten verschiedene Modelle in anonymen, zufällig ausgewählten Duellen gegeneinander an.

Die Nutzer interagieren mit den Modellen und stimmen für ihre bevorzugten Antworten ab. Aus diesen Stimmen ergibt sich das Ranking im Leaderboad. Die Plattform sammelt alle Interaktionen der Nutzer, zählt aber nur die abgegebenen Stimmen, wenn die Namen der Modelle unbekannt sind, also der Nutzer nicht nach dem Namen gefragt hat. Die Plattform ist neutral.

Da es sich um Nutzerbewertungen, also um wahrgenommene Qualität handelt, kann das Chatbot-Arena-Leaderboard von den Ergebnissen traditioneller Benchmarks abweichen.

Hier ist auch der Knackpunkt: Das neue Bard-Modell wurde bisher nur rund 3.000 Mal bewertet, die GPT-4-Modelle bis zu 30.000 Mal. Das Resultat könnte sich also noch deutlich verschieben, generell sind die Abstände in dem Benchmark eher gering. Alternative Benchmark-Ergebnisse für GPT-Pro-scale sind nicht bekannt.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

In jedem Fall ist es ein Achtungserfolg für Google und macht neugierig auf Gemini Ultra, Googles leistungsstärkstes KI-Modell, das in Kürze erscheinen und Gemini-Pro-Scale noch übertreffen könnte.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google kündigt ein neues Gemini-Modell für seinen Chatbot Bard an, das von Menschen ähnlich gut bewertet wird wie GPT-4.
  • Das neue Pro-Modell belegt im neutralen Benchmark der Chatbot Arena den zweiten Platz, vor zwei älteren GPT-4-Modellen, aber hinter GPT-4-Turbo.
  • Google plant, in Kürze das leistungsstärkere KI-Modell Gemini-Ultra zu veröffentlichen, das Gemini-Pro-Scale noch übertreffen könnte.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!