Google veröffentlicht stärkeres Gemini-Pro-Modell auf GPT-4-Niveau für Bard

Update

Aussage von Oriol Vinyals ergänzt

Update vom 27. Januar 2024:

Auch Oriol Vinyals, Deep-Learning-Leiter und Co-Lead von Gemini, meldet sich bei X zu Wort. Die Bewertung von Sprachmodellen sei "schwierig und nuanciert", akademische Bewertungen seien in die Datensätze geleakt.

Menschliche Bewertungen seien daher "viel besser". Umso mehr freue er sich, dass das kostenlose Bard Gemini Pro so weit oben im Leaderboard gelandet sei. "Ich freue mich auf die Veröffentlichung von Gemini Ultra", schreibt Vinyals.

Ursprünglicher Artikel vom 26. Januar 2024:

Googles Chatbot Bard wird von einem neuen Gemini-Modell angetrieben. Menschen bewerten es ähnlich gut wie GPT-4.

Googles AI-Chef Jeff Dean kündigt auf der X das neue Gemini-Modell an. Demnach handelt es sich um ein Modell der Gemini-Pro-Familie mit dem Zusatz "scale".

Dank der Gemini-Updates sei Bard im Vergleich zum Marktstart im März deutlich leistungsfähiger und verfüge über mehr Fähigkeiten, so Dean.

Was "scale" bedeutet, erklärt Dean nicht, aber der Name lässt vermuten, dass es sich um eine größere (skalierte) Version des bisherigen Pro-Modells handeln könnte, das laut Benchmarks nicht einmal an GPT-3.5 (kostenloses ChatGPT) herankommt. Oberhalb der Pro-Familie gibt es noch die unveröffentlichte Ultra-Variante.

GPT-Pro erreicht in der menschlichen Beurteilung GPT-4

Bemerkenswert ist, dass das neue Pro-Modell im neutralen Benchmark der Chatbot Arena auf Anhieb den zweiten Platz belegt, vor den beiden GPT-4-Modellen 0314 (März 2023) und 0613 (Sommer 2023), aber hinter dem GPT-4-Turbo (November 2023). Das neue Bard-Modell ist das erste, das in die GPT-4-Phalanx einbrechen kann.

Empfehlung

KI in der Praxis

OpenAI veröffentlicht o1-Vollversion und ChatGPT Pro für 200 US-Dollar pro Monat

Bild: Chatbot Arena Leaderboard Screenshot

Die Chatbot-Arena verwendet das Elo-Bewertungssystem, das im Schach und E-Sport verwendet wird, um die Leistung verschiedener Sprachmodelle zu bewerten und zu vergleichen. In der Arena treten verschiedene Modelle in anonymen, zufällig ausgewählten Duellen gegeneinander an.

Die Nutzer interagieren mit den Modellen und stimmen für ihre bevorzugten Antworten ab. Aus diesen Stimmen ergibt sich das Ranking im Leaderboad. Die Plattform sammelt alle Interaktionen der Nutzer, zählt aber nur die abgegebenen Stimmen, wenn die Namen der Modelle unbekannt sind, also der Nutzer nicht nach dem Namen gefragt hat. Die Plattform ist neutral.

Da es sich um Nutzerbewertungen, also um wahrgenommene Qualität handelt, kann das Chatbot-Arena-Leaderboard von den Ergebnissen traditioneller Benchmarks abweichen.

Hier ist auch der Knackpunkt: Das neue Bard-Modell wurde bisher nur rund 3.000 Mal bewertet, die GPT-4-Modelle bis zu 30.000 Mal. Das Resultat könnte sich also noch deutlich verschieben, generell sind die Abstände in dem Benchmark eher gering. Alternative Benchmark-Ergebnisse für GPT-Pro-scale sind nicht bekannt.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

In jedem Fall ist es ein Achtungserfolg für Google und macht neugierig auf Gemini Ultra, Googles leistungsstärkstes KI-Modell, das in Kürze erscheinen und Gemini-Pro-Scale noch übertreffen könnte.

Google veröffentlicht stärkeres Gemini-Pro-Modell auf GPT-4-Niveau für Bard

GPT-Pro erreicht in der menschlichen Beurteilung GPT-4

OpenAI veröffentlicht o1-Vollversion und ChatGPT Pro für 200 US-Dollar pro Monat

Google startet Bild-zu-Video-Funktion für Veo 3 in Gemini

Google macht seine Video-KI Veo 3 Fast weltweit über Gemini Pro verfügbar

Google startet Doppl: Neue KI-App für virtuelle Outfit-Anproben

KI-Coding kann Entwickler langsamer machen – auch wenn sie sich schneller fühlen

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

Google veröffentlicht stärkeres Gemini-Pro-Modell auf GPT-4-Niveau für Bard

GPT-Pro erreicht in der menschlichen Beurteilung GPT-4

Artikel teilen

Bankverbindung