Inhalt
summary Zusammenfassung

Das Bildmodell Gemini 2.5 Flash Image ist jetzt allgemein verfügbar. Es erlaubt unter anderem gezielte Bildbearbeitung per Spracheingabe, konsistente Charakterdarstellungen und die Auswahl aus zehn Seitenverhältnissen.

Anzeige

Google hat sein Bildmodell Gemini 2.5 Flash Image für den produktiven Einsatz freigegeben. Das Modell kann jetzt in Produktionsumgebungen eingesetzt werden und ist über die Gemini-API sowie auf Vertex AI verfügbar.

Das Modell kann Bilder generieren, bearbeiten und kombinieren. Es unterstützt zehn verschiedene Seitenverhältnisse, darunter Formate wie 21:9, 16:9, 4:3, 1:1 oder 9:16, und richtet sich damit an unterschiedliche Anwendungsbereiche, von Filmformaten bis zu sozialen Medien. Die Steuerung erfolgt per Texteingabe, gezielte Bearbeitungen sind mit natürlicher Sprache möglich. Bilder können ohne begleitenden Text ausgegeben werden.

Die Nutzung kostet 0,039 US-Dollar pro Bild, bei einer Million Ausgabetokens fallen 30 US-Dollar an. Weitere Preise folgen dem Standardmodell von Gemini 2.5 Flash.

Anzeige
Anzeige

In Google AI Studio können Entwickler eigene Anwendungen erstellen und testen. Mithilfe eines sogenannten Build Mode lassen sich aus einfachen Texteingaben funktionierende Prototypen erzeugen, die direkt in Google AI Studio ausgeführt oder als Code exportiert werden können.

Beispielanwendungen sind etwa Bananimate, ein GIF-Animator mit dem Maskottchen „Nano Banana“, Enhance, ein kreatives Zoom-Tool mit verstecktem Easter Egg, oder Fit Check, eine virtuelle Umkleidekabine zur Outfit-Vorschau.

Beispiele aus der Industrie

Der Einsatz konzentriert sich auf Anwendungen, in denen konsistente Charakterdarstellungen und flexible Bildbearbeitung gefragt sind. Das Start-up Cartwheel kombiniert das Modell mit einem eigenen 3D-Posing-Tool, um Charaktere aus beliebigen Kameraperspektiven darzustellen. Andere Modelle hätten laut Mitgründer Andrew Carr dabei entweder an der Perspektive oder am inhaltlichen Kontext gescheitert, Gemini 2.5 Flash Image sei das erste Modell, das beides gleichzeitig leisten könne.

Auch das KI-Studio Volley nutzt das Modell für sein Spiel „Wit’s End“. Dort entstehen Porträts, Szenenschnitte und Bildbearbeitungen direkt im Spielverlauf. Laut CTO James Wilsterman liegt die Latenz unter zehn Sekunden, was eine Steuerung über Sprache oder Chat in Echtzeit erlaubt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google hat das Bildmodell Gemini 2.5 Flash Image für den produktiven Einsatz freigegeben. Es kann Bilder generieren, bearbeiten, kombinieren und unterstützt zehn verschiedene Seitenverhältnisse für unterschiedliche Anwendungsbereiche. Die Steuerung erfolgt per Texteingabe, gezielte Bildbearbeitung ist mit natürlicher Sprache möglich.
  • Das Modell ist über die Gemini-API und Vertex AI verfügbar, die Nutzung kostet 0,039 US-Dollar pro Bild. In Google AI Studio können Entwickler mit dem Build Mode Prototypen aus Texteingaben erstellen und direkt testen oder als Code exportieren.
  • In der Industrie wird Gemini 2.5 Flash Image unter anderem von Cartwheel für flexible 3D-Charakterposen und von Volley für schnelle, sprachgesteuerte Bildbearbeitung in Spielen eingesetzt.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!