Das Bildmodell Gemini 2.5 Flash Image ist jetzt allgemein verfügbar. Es erlaubt unter anderem gezielte Bildbearbeitung per Spracheingabe, konsistente Charakterdarstellungen und die Auswahl aus zehn Seitenverhältnissen.
Google hat sein Bildmodell Gemini 2.5 Flash Image für den produktiven Einsatz freigegeben. Das Modell kann jetzt in Produktionsumgebungen eingesetzt werden und ist über die Gemini-API sowie auf Vertex AI verfügbar.
Das Modell kann Bilder generieren, bearbeiten und kombinieren. Es unterstützt zehn verschiedene Seitenverhältnisse, darunter Formate wie 21:9, 16:9, 4:3, 1:1 oder 9:16, und richtet sich damit an unterschiedliche Anwendungsbereiche, von Filmformaten bis zu sozialen Medien. Die Steuerung erfolgt per Texteingabe, gezielte Bearbeitungen sind mit natürlicher Sprache möglich. Bilder können ohne begleitenden Text ausgegeben werden.
Die Nutzung kostet 0,039 US-Dollar pro Bild, bei einer Million Ausgabetokens fallen 30 US-Dollar an. Weitere Preise folgen dem Standardmodell von Gemini 2.5 Flash.
In Google AI Studio können Entwickler eigene Anwendungen erstellen und testen. Mithilfe eines sogenannten Build Mode lassen sich aus einfachen Texteingaben funktionierende Prototypen erzeugen, die direkt in Google AI Studio ausgeführt oder als Code exportiert werden können.
Beispielanwendungen sind etwa Bananimate, ein GIF-Animator mit dem Maskottchen „Nano Banana“, Enhance, ein kreatives Zoom-Tool mit verstecktem Easter Egg, oder Fit Check, eine virtuelle Umkleidekabine zur Outfit-Vorschau.
Beispiele aus der Industrie
Der Einsatz konzentriert sich auf Anwendungen, in denen konsistente Charakterdarstellungen und flexible Bildbearbeitung gefragt sind. Das Start-up Cartwheel kombiniert das Modell mit einem eigenen 3D-Posing-Tool, um Charaktere aus beliebigen Kameraperspektiven darzustellen. Andere Modelle hätten laut Mitgründer Andrew Carr dabei entweder an der Perspektive oder am inhaltlichen Kontext gescheitert, Gemini 2.5 Flash Image sei das erste Modell, das beides gleichzeitig leisten könne.
Auch das KI-Studio Volley nutzt das Modell für sein Spiel „Wit’s End“. Dort entstehen Porträts, Szenenschnitte und Bildbearbeitungen direkt im Spielverlauf. Laut CTO James Wilsterman liegt die Latenz unter zehn Sekunden, was eine Steuerung über Sprache oder Chat in Echtzeit erlaubt.