Google rollt verbesserte Gemini 2.5 Flash und Flash-Lite KI-Modelle aus

27. September 2025

GPT-4 prompted by THE DECODER

Kurz & Knapp

Google hat neue Vorschauversionen seiner leichten KI-Modelle Gemini 2.5 Flash und Gemini 2.5 Flash-Lite veröffentlicht, die beide effizienter arbeiten, besser übersetzen, komplexere Aufgaben bewältigen und mit verbesserter Multimodalität überzeugen.
Gemini 2.5 Flash-Lite folgt komplexen Anweisungen und Systemprompts deutlich zuverlässiger, liefert präzisere und kürzere Antworten bei geringeren Token-Kosten und bietet verbesserte Multimodalität bei Audio-Transkription, Bildanalyse und Übersetzungsqualität.
Das größere Gemini 2.5 Flash nutzt externe Tools bei mehrstufigen Aufgaben besser und erzielt eine um fünf Prozentpunkte höhere Leistung auf dem SWE-Bench Verified Benchmark.

Google veröffentlicht neue Vorschauversionen von Gemini 2.5 Flash und Flash-Lite. Die Modelle sollen effizienter arbeiten, besser mit Multimedia umgehen und übersetzen und komplexere Aufgaben erledigen.

Google hat neue Vorschauversionen seiner leichten KI-Modelle Gemini 2.5 Flash und Flash Lite veröffentlicht. Beide Modelle befinden sich weiterhin in der experimentellen Vorschauphase.

Im Artificial Analysis Index, der verschiedene Benchmarks zusammenfasst, erzielen sie eine bessere Leistung bei einer höheren Antwortgeschwindigkeit durch geringeren Tokenverbrauch. Die Preise bleiben unverändert, doch durch den geringeren Tokenverbrauch sinken die Kosten für den Einsatz.

Die aktualisierten Flash-Modelle sollen schneller und smarter sein. | Bild: Google

Die neue Version von Gemini 2.5 Flash-Lite folgt komplexen Anweisungen und Systemprompts „signifikant“ zuverlässiger, produziert kürzere und präzisere Antworten, wodurch Token-Kosten und Latenz reduziert werden, und bietet darüber hinaus eine verbesserte Multimodalität mit präziserer Audiodaten-Transkription, robusterer Bildanalyse und höherer Übersetzungsqualität.

Auch das größere Gemini 2.5 Flash-Modell wurde überarbeitet. Es nutzt externe Tools in komplexen, mehrstufigen Aufgaben besser und zeigte laut Google eine Verbesserung von fünf Prozentpunkten auf dem SWE-Bench Verified Benchmark (von 48,9 auf 54 Prozent). Dieser Benchmark misst die Fähigkeit von KI-Modellen, realistische Softwareentwicklungsaufgaben zu lösen.

Zudem arbeitet das Modell nun effizienter: Mit aktivierter „Thinking“-Funktion erzeugt es qualitativ hochwertigere Ausgaben bei geringerer Token-Nutzung, das heißt, es antwortet schneller und günstiger.

Die neuen Flash-Modelle verbrauchen weniger Denk-Token. | Bild: Google

Gemini 2.5 Flash und Flash Lite nutzen

Die Modelle sind ab sofort in Google AI Studio und Vertex AI verfügbar. Das neue Lite-Modell kann über die Modellkennung gemini-2.5-flash-lite-preview-09-2025 getestet werden. Die Flash-Version kann über die Modellkennung gemini-2.5-flash-preview-09-2025 getestet werden.

Um die Nutzung der neuesten Modelle zu erleichtern, führt Google zudem ein Alias-System ein. Die neuen Bezeichner gemini-flash-latest und gemini-flash-lite-latest verweisen stets auf die aktuellste Version eines Modells. Damit entfällt die Notwendigkeit, Modellnamen bei jeder Aktualisierung manuell anzupassen.

Allerdings weist Google darauf hin, dass sich hinter diesen Aliases Funktionen, Preise und Ratenlimits je nach Version ändern können. Wer auf stabile Bedingungen angewiesen ist, soll weiterhin die fest benannten Modelle gemini-2.5-flash und gemini-2.5-flash-lite verwenden. Änderungen an den -latest-Verweisen werden mit einer Frist von zwei Wochen angekündigt.

Modell	Eingabetoken (Text/Bild/Video)	Eingabetoken (Audio)	Ausgabetoken (inkl. "thinking tokens")
Gemini 2.5 Flash	$0,30 pro 1 Mio.	$1,00 pro 1 Mio.	$2,50 pro 1 Mio.
Gemini 2.5 Flash-Lite	$0,10 pro 1 Mio.	$0,30 pro 1 Mio.	$0,40 pro 1 Mio.

Für die Batch-API fallen jeweils 50 Prozent der interaktiven Preise an. Quelle: offizielle Gemini API Preisliste

Quelle: Google Developer Blog