Inhalt
summary Zusammenfassung

Google öffnet den Zugang zu seinem neuen KI-Flaggschiff Gemini 2.5 Pro. Das Modell überzeugt im anspruchsvollen GPQA-Benchmark und bei Coding-Aufgaben – und wird von Google überraschend günstig angeboten.

Anzeige

Laut Alphabet-CEO Sundar Pichai ist Gemini 2.5 Pro derzeit das intelligenteste und zugleich gefragteste Modell von Google. Die Nachfrage sei allein im laufenden Monat um über 80 Prozent gestiegen, sowohl im Google AI Studio als auch über die Gemini API. Seit dieser Woche ist das Modell daher mit höheren Nutzungslimits in einer öffentlichen Vorschau verfügbar – inklusive kostenlosem Zugang im "Free Tier".

Gemini Web-Chat-Nutzer können das 2.5 Pro Experimental-Modell weiter nutzen, das die gleiche Leistung bringen soll. Weitere Ankündigungen sollen auf der Konferenz Google Cloud Next '25 ab dem 9. April folgen.

Überraschend günstig

Die API von Gemini 2.5 Pro wird in gestaffelten Preismodellen angeboten. Bei Prompts mit bis zu 200.000 Tokens kostet das Eingabematerial $1,25 pro Million Tokens, das Ausgabeergebnis $10. Bei größeren Prompts steigen die Preise auf $2,50 beziehungsweise $15 pro Million Tokens. Prompt-Caching ist noch nicht möglich, auch nicht im Bezahlmodell. Es könnte die Preise weiter reduzieren.

Anzeige
Anzeige

Die Grounding-Funktion mit Google-Suche bleibt bis zu 500 Anfragen pro Tag kostenlos, danach sind 1.500 weitere Anfragen frei – anschließend kostet jede weitere 1.000 Anfragen 35 Dollar. Die Daten aus dem kostenlosen Zugang dürfen laut Nutzungsbedingungen fürs KI-Training verwendet werden, die aus dem Bezahlmodell hingegen nicht.

Tabelle zeigt Preisstaffelung für Eingabe- und Ausgabetokens sowie Bedingungen für Grounding-API und Datennutzung bei Gemini 2.5 Pro.
Übersicht zu Preisen und Bedingungen der Gemini 2.5 Pro API im Free- und Paid-Tier. | Bild: Screenshot

Im Vergleich zu konkurrierenden Modellen wie Claude 3.7 Sonnet fällt Gemini 2.5 Pro deutlich günstiger aus bei gleicher oder besserer Leistung. Der Preis-Leistungs-Kampf im Modellmarkt geht also weiter.

Bestwert in naturwissenschaftlichem Benchmark

Wie das KI-Forschungskollektiv EpochAI berichtet, erreicht Gemini 2.5 Pro im GPQA-Diamond-Benchmark eine Punktzahl von 84 Prozent – damit liegt es über dem typischen Ergebnis menschlicher Experten, die im Schnitt 70 Prozent erzielen. GPQA Diamond besteht aus besonders schwierigen Multiple-Choice-Fragen aus Biologie, Chemie und Physik. Der unabhängige Test bestätigt Googles Benchmark-Ergebnisse.

Balkendiagramm zeigt Gemini 2.5 Pro mit 84 % Genauigkeit im GPQA-Benchmark, deutlich vor Claude 3.7 Sonnet und anderen Modellen.
Gemini 2.5 Pro erzielt im GPQA Diamond Benchmark die höchste Genauigkeit unter allen getesteten Modellen. | Bild: EpochAI

Technische Einzelheiten zur Architektur, Trainingsdaten oder genutztem Rechenaufwand hat Google bisher nicht veröffentlicht; bekannt ist, dass es ein "Reasoning"-Modell wie OpenAIs o-Serie ist. EpochAI konnte das Modell bislang nur eingeschränkt testen, da die Rate-Limits für experimentelle Modelle nach wie vor niedrig sind.

Auch im anspruchsvollen "Humanity's Last Exam" erreicht Gemini 2.5 Pro 18,8 Prozent - der beste Wert unter den Modellen ohne zusätzliche Tools. Deepseek-R1 etwa liegt hier bei rund neun Prozent.

Empfehlung

In einem wöchentlich durchgeführten IQ-Test auf trackingAI.org zeigt Gemini 2.5 Pro ebenfalls außergewöhnliche Leistungen. Die dort getestete "Experimental"-Version des Modells erreichte einen durchschnittlichen IQ-Wert von etwa 130. Damit liegt es deutlich über dem Median der getesteten Sprachmodelle, der im Bereich zwischen 90 und 110 liegt.

Glockenkurve mit IQ-Werten von Sprach- und Vision-Modellen. Gemini 2.5 Pro Experimental liegt bei etwa 130 am rechten Rand der Verteilung.
Gemini 2.5 Pro Experimental erreicht im wöchentlichen IQ-Test den höchsten Wert (116) unter allen Sprachmodellen. | Bild: Screenshot THE DECODER

Der Test basiert auf verbalisierten Versionen des norwegischen Mensa-IQ-Tests. „Verbal“ bedeutet in diesem Kontext, dass die Fragen in Textform gestellt werden – im Gegensatz zu sogenannten Vision-Modellen, denen die Originaltestbilder gezeigt werden. Die Ergebnisse beruhen auf einem Offline-Setup: Die Fragen sind nicht Teil der Trainingsdaten der Modelle. Falls ein Modell eine Frage nicht beantwortet, wird sie bis zu zehnmal neu gestellt. Verweigert es mehrfach die Antwort, wird der letzte gültige Versuch gewertet und eine Verweigerung vermerkt.

Viel Lob der Entwickler-Community auf X

Auch bei X erhält Googles neues Modell durchweg positives Feedback. Der Informatiker François Chollet bezeichnet Gemini 2.5 Pro als sein tägliches Arbeitsmodell. Für ihn sei es das beste Modell für fast alle Aufgaben – mit Ausnahme der Bildgenerierung, bei der es aber ebenfalls gut abschneide.

Der Investor Martin Casado nutzt es eigenen Angaben zufolge fast ausschließlich für Codierungsaufgaben. Peter Yang hat Gemini 2.5 in seiner Vergleichstabelle als derzeit bestes Modell für Programmieraufgaben eingestuft. Der japanische KI-Forscher Shane Gu lobt insbesondere das Kosten-Nutzen-Verhältnis des Modells: Gemini befinde sich in allen Preisklassen an der Pareto-Grenze.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google stellt sein neues KI-Modell Gemini 2.5 Pro breiter bereit, inklusive kostenlosem Zugang im „Free Tier“ und gestaffelten Preismodellen über die Gemini API – mit deutlich niedrigeren Kosten als vergleichbare Modelle bei gleichwertiger oder besserer Leistung.
  • Im naturwissenschaftlichen GPQA-Diamond-Benchmark erzielt Gemini 2.5 Pro 84 Prozent und übertrifft damit den Durchschnitt menschlicher Experten deutlich; unabhängig bestätigt wurde das Ergebnis von EpochAI.
  • Entwickler und KI-Forscher auf X loben das Modell für seine Vielseitigkeit und das gute Preis-Leistungs-Verhältnis – insbesondere bei Programmier- und Codierungsaufgaben wird es oft bevorzugt eingesetzt.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!