Inhalt
summary Zusammenfassung

Google hat Gemini 1.5 in den vergangenen vier Monaten weiter verbessert. Es soll nun das beste LLM auf dem Markt sein.

Anzeige

Googles Forschungsabteilung DeepMind hat mit Gemini 1.5 Pro und Gemini 1.5 Flash Benchmarks für die neuesten Modelle der Gemini-Reihe vorgelegt. Laut Jeff Dean und Oriol Vinyals, leitende KI-Forscher bei Google, haben sich die Fähigkeiten der Modelle in den letzten vier Monaten deutlich verbessert.

Demnach übertrifft Gemini 1.5 Pro seinen Vorgänger Gemini 1.0 Ultra in 16 von 19 Text- und 18 von 21 Vision-Benchmarks sowie den bisherigen Marktführer GPT-4 Turbo von OpenAI.

Beispielsweise erreichte Gemini 1.5 Pro im MMLU-Sprachverständnis-Benchmark 85,9 % im normalen 5-Shot-Setup und 91,7 % im Mehrheitswahlverfahren, was die Leistung von GPT-4 Turbo übertrifft.

Anzeige
Anzeige
Die Benchmarks der Gemini-Familie in der Übersicht. | Bild: Google Deepmind

Gemini 1.5 Flash wurde entwickelt, um sehr schnell und mit minimalen Regressionsraten zu arbeiten. Als schlankere und effizientere Version des Modells soll es eine ähnliche Leistung bieten und einen Kontext von bis zu zwei Millionen Token unterstützen.

Laut Jeff Dean und Oriol Vinyals von Google zeigt Gemini 1.5 Pro beeindruckende Fortschritte, insbesondere bei mathematischen, Codierungs- und multimodalen Aufgaben. Google verwendet eine für mathematische Aufgaben optimierte Version von Gemini 1.5.

Bild: Google Deepmind
Beispiel einer für Mathematik optimierten Version von Gemini 1.5 Pro, die ein komplexes mathematisches Problem löst. | Bild: Google Deepmind via Oriol Vinyals

Das Alleinstellungsmerkmal der neuen Gemini-Generation ist jedoch das extrem große Kontextfenster von bis zu 10 Millionen Token. Damit können die Modelle Informationen aus umfangreichen Dokumenten, mehreren Stunden Video- und fast fünf Tagen Audiomaterial verarbeiten.

Gemini 1.5 Pro ist laut Google beispielsweise in der Lage, aus einem Programmierhandbuch eine neue Programmiersprache zu erlernen. Aus einem 500-seitigen Grammatikhandbuch und einer Handvoll zusätzlicher Sätze soll das Modell eine neue Sprache wie Kalamang lernen, eine Papuasprache mit weniger als 200 Sprechern. Das Modell soll die Sprache in menschenähnlicher Qualität sprechen.

Bei Tests zur Wiedergabe von Informationen aus dem Kontext ("Needle-in-a-Haystack") erreicht Gemini 1.5 Pro selbst bei 10 Millionen Token noch eine Genauigkeit von 99,2 Prozent.

Empfehlung

Allerdings ist dieser Test wenig aussagekräftig, da es sich im Grunde nur um eine Wortsuche, ähnlich Strg+F, handelt. Interessanter, aber wesentlich anspruchsvoller wären Tests, die die Fähigkeit eines Modells messen, die gesamte eingegebene Information in einer Antwort zu berücksichtigen. Dadurch ließe sich feststellen, ob und wie stark das Lost-in-the-Middle-Phänomen auftritt.

Gemini 1.5 Pro und Gemini 1.5 Flash sind ab sofort verfügbar und können kostenlos über die Google AI Studio Plattform getestet werden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google hat seine Sprachmodelle Gemini 1.5 Pro und Gemini 1.5 Flash in den letzten vier Monaten deutlich verbessert. Laut den Google-Forschern Jeff Dean und Oriol Vinyals übertreffen sie nun den Vorgänger Gemini 1.0 Ultra und den Konkurrenten GPT-4 Turbo in den meisten Text- und Vision-Benchmarks.
  • Das Alleinstellungsmerkmal der neuen Gemini-Modelle ist ihr extrem großes Kontextfenster von bis zu 10 Millionen Token. Damit können sie Informationen aus umfangreichen Dokumenten, mehreren Stunden Video- und fast fünf Tagen Audiomaterial verarbeiten. Gemini 1.5 Pro soll sogar in der Lage sein, aus einem Handbuch eine neue Programmier- oder Papuasprache zu erlernen.
  • Bei Tests, bei denen Informationen aus dem Kontext wiedergegeben werden, erreicht Gemini 1.5 Pro selbst bei 10 Millionen Token noch eine hohe Genauigkeit. Diese Tests sind jedoch wenig aussagekräftig in Bezug auf die Fähigkeit, die gesamte eingegebene Information in einer Antwort zu berücksichtigen.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!