Gemini 3: Googles neues KI-Flaggschiff übertrifft Konkurrenz in nahezu allen Benchmarks
Kurz & Knapp
- Google hat Gemini 3 vorgestellt, integriert das Modell in Suche, Chrome und AI Studio und betont Fortschritte bei logischem Denken und multimodalem Verständnis.
- Tests zeigen Spitzenwerte in Benchmarks, verbunden mit höheren Kosten und leicht erhöhten Halluzinationsraten.
- Der neue „Deep Think“-Modus und die Plattform Antigravity erweitern den Einsatz für komplexe Aufgaben.
Google hat mit Gemini 3 sein neues Modell vorgestellt. Neben dem neuen Basismodell Gemini 3 Pro gibt es einen leistungsfähigeren "Deep Think"-Modus und mit Google Antigravity eine neue Plattform für die Entwicklung mit KI-Agenten.
Google hat die nächste Generation seiner KI-Modellfamilie, Gemini 3, vorgestellt und bezeichnet sie als das bisher "intelligenteste Modell" des Unternehmens. Laut der Führung von Google, darunter CEO Sundar Pichai und die Leitung von Google DeepMind, soll die neue Reihe vor allem in den Bereichen logisches Denken, multimodales Verständnis und Agenten-Fähigkeiten neue Maßstäbe setzen.
Zum Start wird Gemini 3 Pro als Preview veröffentlicht und in diverse Google-Produkte integriert. Dazu gehören die Gemini-App, Entwickler-Tools wie AI Studio und Vertex AI sowie der AI-Modus in der Google-Suche. Erstmals wird damit ein neues Gemini-Modell direkt zum Start in der Suche verfügbar gemacht. Laut Google zeichnet sich Gemini 3 durch ein besseres Verständnis für Kontext und Nuancen aus. Die Antworten sollen "intelligent, prägnant und direkt" sein und auf "Floskeln und Schmeicheleien" zugunsten echter Einblicke verzichten.
Verbesserte Denkfähigkeiten und neue Benchmark-Rekorde
Google untermauert die Leistungsfähigkeit von Gemini 3 Pro mit einer Reihe von Benchmark-Ergebnissen. Das Modell soll die LMArena-Rangliste mit einem Elo-Wert von 1501 anführen und bei Tests wie Humanity's Last Exam (37,5 % ohne Tools) und GPQA Diamond (91,9 %) Denkfähigkeiten auf "PhD-Niveau" zeigen. Damit schiebt es sich auch vor xAIs jüngsten Grok 4.1-Modell. Auch in den Bereichen Mathematik (23,4 % bei MathArena Apex) und multimodales Verständnis (81 % bei MMMU-Pro) soll das Modell neue Spitzenwerte erreichen.
Die technische Grundlage bildet laut der offiziellen Model-Card eine "sparse mixture-of-experts" (MoE) Transformer-Architektur. Das Training erfolgte auf einem großen, multimodalen Datensatz, der laut Google aus öffentlich verfügbaren Web-Dokumenten, lizenzierten Daten, synthetischen KI-Daten sowie Nutzerdaten aus Google-Produkten und -Diensten bestand. Der Wissensstand des Modells endet im Januar 2025.
Gemini 3 zeigt starke multimodale Fähigkeiten
Ein Kernmerkmal von Gemini 3 ist seine native multimodale Fähigkeit, also die Verarbeitung von Text, Bildern, Videos und Audio. Google gibt an, dass das Modell mit 81 % bei MMMU-Pro und 87,6 % bei Video-MMMU Spitzenwerte im multimodalen Verständnis erzielt. Besonders deutlich wird diese Stärke bei der Analyse grafischer Benutzeroberflächen. Im ScreenSpot-Pro-Benchmark, der die Fähigkeit eines Modells testet, Elemente auf einem Bildschirm zu lokalisieren, erreicht Gemini 3 Pro einen Wert von 72,7 Prozent. Damit löst es den bisherigen Spitzenreiter, das Modell Holo2 (66,1 %), ab – ein speziell für die Navigation auf Benutzeroberflächen entwickeltes Modell. Gleichzeitig übertrifft Gemini 3 die weitere Konkurrenz wie Claude 4.5 Sonnet (36,2 %) und GPT-5.1 (3,5 %) bei weitem und zeigt einen gewaltigen Sprung gegenüber seinem Vorgänger Gemini 2.5 Pro (11,4 %).
Diese Fähigkeiten sollen praktische Anwendungen ermöglichen, wie die Analyse von Sportvideos zur Technikverbesserung oder das Erstellen von Code für komplexe Visualisierungen. Im AI-Modus der Suche soll Gemini 3 zudem neue "immersive visuelle Layouts" generieren können. Und in Chrome wird Gemini 3 in Zukunft als Browser-Agent zuverlässiger agieren können.
"Deep Think" und Agenten-Plattform "Antigravity" für komplexe Aufgaben
Zusätzlich zu Gemini 3 Pro führt Google auch den "Deep Think"-Modus für das neue Modell ein. Dieser soll die Denk- und Verständnisfähigkeiten des Modells nochmals deutlich steigern und für besonders komplexe Probleme ausgelegt sein. In Tests übertrifft Deep Think die bereits hohen Werte von Gemini 3 Pro, etwa bei Humanity's Last Exam (41,0 %) und dem ARC-AGI-2-Benchmark (45,1 %). Dieser Modus wird zunächst Sicherheitstestern und später Abonnenten von Google AI Ultra zur Verfügung gestellt.
Für Entwickler präsentiert Google mit Google Antigravity eine neue "agentische Entwicklungsplattform". Diese soll die KI-Unterstützung von einem Werkzeug zu einem "aktiven Partner" machen. Die KI-Agenten erhalten direkten Zugriff auf den Editor, das Terminal und den Browser und sollen in der Lage sein, komplexe Software-Aufgaben autonom zu planen, auszuführen und zu validieren.
Gemini 3 soll laut Analysten die KI-Konkurrenz überholen
Unabhängige Tests scheinen die Behauptungen von Google zu stützen. Laut dem Analysehaus Artificial Analysis, das vorab Zugang zum Modell hatte, ist Gemini 3 Pro der neue Marktführer und übertrifft OpenAIs GPT-5.1 im "Artificial Analysis Intelligence Index" um drei Punkte.
Die Analysten berichten auf X, dass das Modell in fünf von zehn zentralen Benchmarks, darunter GPQA Diamond, MMLU-Pro und HLE, die Spitzenposition einnimmt. Besonders stark sei es bei Codierungs- und Agenten-Aufgaben sowie im multimodalen Verständnis, wo es den höchsten Wert im MMMU-Pro-Benchmark erzielt. Artificial Analysis stellt fest, dass die hohe Leistung im "AA-Omniscience"-Benchmark, der Wissen und Halluzinationen misst, auf eine im Vergleich zur Konkurrenz sehr große Modellgröße hindeuten könnte, ähnlich wie Anthropics Opus 4.1.
Hohe Leistung hat ihren Preis
Die Spitzenleistung von Gemini 3 Pro ist laut Artificial Analysis jedoch mit hohen Kosten verbunden. Für Kontexte unter 200.000 Token liegt der Preis bei 2 US-Dollar pro Million Input-Token und 12 US-Dollar pro Million Output-Token. Damit ist das Modell in dieser Kategorie teurer als sein direkter Vorgänger Gemini 2.5 Pro (1,25 $/10 $) und der Konkurrent GPT-5.1 (1,25 $/10 $).
Gleichzeitig positioniert sich Google preislich unterhalb anderer Hochleistungsmodelle wie Claude 4.5 Sonnet (3 $/15 $) und Grok 4.1 (3 $/15 $) und bleibt deutlich günstiger als die teuersten Angebote am Markt, etwa Claude 4.1 Opus (15 $/75 $) und das preislich führende GPT-5 Pro (15 $/120 $).
Für die Nutzung größerer Kontexte über 200.000 Token steigen die Kosten für Gemini 3 Pro allerdings weiter auf 4 US-Dollar für den Input und 18 US-Dollar für den Output. "Deep Think" dürfte noch einmal deutlich teurer werden.
Obwohl das Modell eine bessere Token-Effizienz als sein Vorgänger aufweist, führten die höheren Preise so dazu, dass die Ausführung des Benchmark-Index von Artificial Analysis 12 % teurer war als mit Gemini 2.5 Pro. Demgegenüber steht allerdings zusätzlich eine hohe Geschwindigkeit: Mit 128 Output-Token pro Sekunde sei es schneller als Konkurrenzmodelle wie GPT-5.1.
Eine differenzierte Bewertung liefert die Analyse zur Zuverlässigkeit. Während das Modell bei der reinen Wissensgenauigkeit mit 88 Prozent einen Spitzenwert erreicht, stellt Artificial Analysis gleichzeitig eine "höhere Halluzinationsrate als andere Modelle" fest. Google selbst macht in seiner Model Card keine konkreten Angaben zur Halluzinationsrate und führt diese lediglich als allgemeine "bekannte Einschränkung" von Foundation-Modellen auf.


