Google öffnet den Zugang zu seinem neuen KI-Flaggschiff Gemini 2.5 Pro. Das Modell überzeugt im anspruchsvollen GPQA-Benchmark und bei Coding-Aufgaben – und wird von Google überraschend günstig angeboten.
Laut Alphabet-CEO Sundar Pichai ist Gemini 2.5 Pro derzeit das intelligenteste und zugleich gefragteste Modell von Google. Die Nachfrage sei allein im laufenden Monat um über 80 Prozent gestiegen, sowohl im Google AI Studio als auch über die Gemini API. Seit dieser Woche ist das Modell daher mit höheren Nutzungslimits in einer öffentlichen Vorschau verfügbar – inklusive kostenlosem Zugang im "Free Tier".
Gemini Web-Chat-Nutzer können das 2.5 Pro Experimental-Modell weiter nutzen, das die gleiche Leistung bringen soll. Weitere Ankündigungen sollen auf der Konferenz Google Cloud Next '25 ab dem 9. April folgen.
Überraschend günstig
Die API von Gemini 2.5 Pro wird in gestaffelten Preismodellen angeboten. Bei Prompts mit bis zu 200.000 Tokens kostet das Eingabematerial $1,25 pro Million Tokens, das Ausgabeergebnis $10. Bei größeren Prompts steigen die Preise auf $2,50 beziehungsweise $15 pro Million Tokens. Prompt-Caching ist noch nicht möglich, auch nicht im Bezahlmodell. Es könnte die Preise weiter reduzieren.
Die Grounding-Funktion mit Google-Suche bleibt bis zu 500 Anfragen pro Tag kostenlos, danach sind 1.500 weitere Anfragen frei – anschließend kostet jede weitere 1.000 Anfragen 35 Dollar. Die Daten aus dem kostenlosen Zugang dürfen laut Nutzungsbedingungen fürs KI-Training verwendet werden, die aus dem Bezahlmodell hingegen nicht.

Im Vergleich zu konkurrierenden Modellen wie Claude 3.7 Sonnet fällt Gemini 2.5 Pro deutlich günstiger aus bei gleicher oder besserer Leistung. Der Preis-Leistungs-Kampf im Modellmarkt geht also weiter.
Bestwert in naturwissenschaftlichem Benchmark
Wie das KI-Forschungskollektiv EpochAI berichtet, erreicht Gemini 2.5 Pro im GPQA-Diamond-Benchmark eine Punktzahl von 84 Prozent – damit liegt es über dem typischen Ergebnis menschlicher Experten, die im Schnitt 70 Prozent erzielen. GPQA Diamond besteht aus besonders schwierigen Multiple-Choice-Fragen aus Biologie, Chemie und Physik. Der unabhängige Test bestätigt Googles Benchmark-Ergebnisse.

Technische Einzelheiten zur Architektur, Trainingsdaten oder genutztem Rechenaufwand hat Google bisher nicht veröffentlicht; bekannt ist, dass es ein "Reasoning"-Modell wie OpenAIs o-Serie ist. EpochAI konnte das Modell bislang nur eingeschränkt testen, da die Rate-Limits für experimentelle Modelle nach wie vor niedrig sind.
Auch im anspruchsvollen "Humanity's Last Exam" erreicht Gemini 2.5 Pro 18,8 Prozent - der beste Wert unter den Modellen ohne zusätzliche Tools. Deepseek-R1 etwa liegt hier bei rund neun Prozent.
In einem wöchentlich durchgeführten IQ-Test auf trackingAI.org zeigt Gemini 2.5 Pro ebenfalls außergewöhnliche Leistungen. Die dort getestete "Experimental"-Version des Modells erreichte einen durchschnittlichen IQ-Wert von etwa 130. Damit liegt es deutlich über dem Median der getesteten Sprachmodelle, der im Bereich zwischen 90 und 110 liegt.

Der Test basiert auf verbalisierten Versionen des norwegischen Mensa-IQ-Tests. „Verbal“ bedeutet in diesem Kontext, dass die Fragen in Textform gestellt werden – im Gegensatz zu sogenannten Vision-Modellen, denen die Originaltestbilder gezeigt werden. Die Ergebnisse beruhen auf einem Offline-Setup: Die Fragen sind nicht Teil der Trainingsdaten der Modelle. Falls ein Modell eine Frage nicht beantwortet, wird sie bis zu zehnmal neu gestellt. Verweigert es mehrfach die Antwort, wird der letzte gültige Versuch gewertet und eine Verweigerung vermerkt.
Viel Lob der Entwickler-Community auf X
Auch bei X erhält Googles neues Modell durchweg positives Feedback. Der Informatiker François Chollet bezeichnet Gemini 2.5 Pro als sein tägliches Arbeitsmodell. Für ihn sei es das beste Modell für fast alle Aufgaben – mit Ausnahme der Bildgenerierung, bei der es aber ebenfalls gut abschneide.
Der Investor Martin Casado nutzt es eigenen Angaben zufolge fast ausschließlich für Codierungsaufgaben. Peter Yang hat Gemini 2.5 in seiner Vergleichstabelle als derzeit bestes Modell für Programmieraufgaben eingestuft. Der japanische KI-Forscher Shane Gu lobt insbesondere das Kosten-Nutzen-Verhältnis des Modells: Gemini befinde sich in allen Preisklassen an der Pareto-Grenze.