Google stellt günstigeres und schnelleres Gemini-3-Flash-Modell vor
Kurz & Knapp
- Google hat Gemini 3 Flash vorgestellt, ein KI-Modell, das laut dem Unternehmen Spitzenleistung mit niedrigen Kosten verbindet.
- Mit 0,50 Dollar pro Million Input-Tokens ist es deutlich günstiger als Konkurrenten wie Claude Sonnet 4.5 (3,00 Dollar) oder GPT-5.2 Extra High (1,75 Dollar).
- In Benchmarks erreicht Gemini 3 Flash laut Google dennoch Ergebnisse auf Augenhöhe mit den größeren Modellen. Das Modell ist ab sofort über Google AI Studio, die Gemini API und Vertex AI verfügbar.
Im Wettlauf der KI-Modelle verschiebt Google die Stellschrauben weiter Richtung Preis pro Leistung: Gemini 3 Flash soll Pro-Niveau beim Schlussfolgern liefern, aber in der Flash-Klasse bei Latenz und Kosten spielen. Entscheidend ist weniger ein einzelner Benchmark, sondern ob der Ansatz die bisherigen Mittelklasse-Modelle der Konkurrenz entwertet.
Google hat Gemini 3 Flash vorgestellt, das neueste Modell der Gemini-Familie. Laut Google bietet es "Frontier-Intelligenz" bei einem Bruchteil der Kosten des größeren Gemini 3 Pro. Das Modell richtet sich primär an Entwickler und soll den Kompromiss zwischen Geschwindigkeit und Leistungsfähigkeit aufheben. Im Vergleich zu ähnlich leistungsfähigen Modellen ist es deutlich günstiger.
| Modell | Input (pro 1M Tokens) | Output (pro 1M Tokens) |
|---|---|---|
| Gemini 3 Flash | $0,50 | $3,00 |
| Gemini 3 Pro | $2,00 | $12,00 |
| Claude Sonnet 4.5 | $3,00 | $15,00 |
| GPT-5.2 Extra High (OpenAI) | $1,75 | $14,00 |
Zusätzlich verweist Google auf zwei Hebel zur Kostensenkung: Context Caching soll bei wiederholter Token Nutzung Kostenreduktionen von bis zu 90 Prozent ermöglichen, die Batch-API soll 50 Prozent Einsparung für asynchrone Verarbeitung bringen.
Google betont, dass Gemini 3 Flash die "Pareto-Frontier" von Leistung und Effizienz verschiebe. Das Modell übertreffe Gemini 2.5 Pro, sei dabei aber laut einer Analyse von Artificial Analysis dreimal schneller und koste nur einen Bruchteil. Selbst mit dem niedrigsten "Thinking Level" übertrumpfe 3 Flash oft frühere Versionen mit hohen Thinking-Levels, so Google.

Benchmark-Ergebnisse zeigen Stärken bei Reasoning und Coding
In den von Google veröffentlichten Benchmark-Ergebnissen erreicht Gemini 3 Flash nach Unternehmensangaben 90,4 Prozent beim GPQA Diamond, einem Test für wissenschaftliches Wissen auf PhD-Niveau. Beim Humanity’s Last Exam, einem akademischen Reasoning-Benchmark, erzielt das Modell 33,7 Prozent ohne Hilfsmittel und 43,5 Prozent mit Suchfunktion und Code-Ausführung.
Beim Mathematik-Benchmark AIME 2025 erreicht 3 Flash 95,2 Prozent ohne Tools und 99,7 Prozent mit Code-Ausführung. Im umkämpften agentischen Coding-Benchmark SWE-bench Verified kommt das Modell auf 78 Prozent, was laut Google sogar die Leistung von Gemini 3 Pro übertrifft, aber hinter GPT-5.2 und Claude Opus 4.5 liegt.

Für Entwickler relevant ist dabei weniger, ob die Modelle einzelne Werte "gewinnen", sondern ob sie in typischen Arbeitsabläufen stabile Ergebnisse liefern. Google macht an diesem Punkt eine zusätzliche Behauptung: Bei höchstem Thinking Level könne 3 Flash die Denkzeit an die Aufgabe anpassen und nutze im Schnitt weniger Tokens als 2.5 Pro auf typischem Traffic.
Neue Fähigkeiten bei visueller Analyse und Code-Ausführung
Gemini 3 Flash bringt laut Google fortschrittliches visuelles und räumliches Reasoning mit, das besonders für Videoanalysen geeignet sein soll. Neu ist zudem die Möglichkeit, Code-Ausführung zu nutzen, um visuelle Inputs zu zoomen, zu zählen und zu bearbeiten. Da es sich um ein Reasoning-Modell handelt, müssen Entwickler sogenannte "Thought Signatures" in der API aktivieren oder die neue Interactions-API nutzen.
Google nennt mehrere Einstiegspunkte. Für Entwickler ist 3 Flash laut Google verfügbar über Google AI Studio, die Gemini API, Google Antigravity, Gemini CLI, Android Studio sowie für Unternehmen über Vertex AI. In der Gemini-CLI betont Google die Eignung für hochfrequente Terminal-Workflows.
Für den KI-Modelle-Kampf ist die Botschaft klar: Google will die Nutzungsschwelle senken, damit schnelle Modelle nicht mehr als Ausweichoption wirken, sondern als Standard. Dass Google 3 Flash außerdem als Default in Konsumentenprodukten ausrollt, ist Teil derselben Logik.
Erste Anwendungen in Gaming und Deepfake-Erkennung
Google nennt mehrere Anwendungsbeispiele für das neue Modell. Die Spieleplattform Astrocade nutzt Gemini 3 Flash für eine agentische Game-Creation-Engine, die aus einem einzigen Prompt vollständige Spielpläne und ausführbaren Code generiert.
Nick Walton, CEO von Latitude, betont, dass Gemini 3 Flash es Latitude ermögliche, in der KI-Rollenspiel-Engine komplexe Aufgaben mit hoher Qualität und geringen Kosten zu bewältigen. Das sei zuvor nur mit teureren Modellen wie Sonnet 4.5 möglich gewesen.
Resemble AI setzt das Modell für Deepfake-Erkennung in Echtzeit ein. Laut dem Unternehmen bietet 3 Flash eine viermal schnellere multimodale Analyse im Vergleich zu Gemini 2.5 Pro.
Vor kurzem hat Google für Abonnenten einen Gemini 3 "Deep Think"-Modus eingeführt, der das andere Ende des Spektrums im Vergleich zu Flash darstellt: Er ermöglicht paralleles Denken und soll komplexes Schlussfolgern verbessern. Dafür lässt sich das System bei der Antwort allerdings besonders viel Zeit, um eine höhere Qualität zu erreichen; ein Zustand, der wohl mit dem KI-Mainstream noch nicht kompatibel ist.
Gemini 3 Flash wird Standard in der Google Suche
Gemini 3 Flash wird laut Google auch als Standardmodell für den AI-Mode in der Google-Suche ausgerollt, weltweit für alle Nutzer. Damit setzt Google sein schnellstes Modell direkt an die Stelle, an der Milliarden von Suchanfragen verarbeitet werden.
Laut Google soll der AI-Mode mit Gemini 3 Flash besser darin sein, die Nuancen einer Anfrage zu erfassen. Das System berücksichtige verschiedene Aspekte einer Frage, um durchdachte und umfassende Antworten zu liefern, die visuell aufbereitet sind. Dabei zieht es Echtzeitinformationen und Links aus dem Web heran.
Das Ergebnis kombiniere Recherche mit unmittelbarer Handlungsmöglichkeit: Nutzer erhalten eine strukturierte Aufschlüsselung samt konkreter Empfehlungen, so Google. Besonders geeignet sei dieser Ansatz für komplexe Ziele mit mehreren Variablen, etwa die Planung einer kurzfristigen Reise oder das schnelle Erlernen komplexer Bildungskonzepte.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren