Google veröffentlicht ein neues KI-Bildmodell mit deutlich verbesserter Bildbearbeitung

Google Deepmind integriert ein neues Bildbearbeitungsmodell in die Gemini-App. Die Software verändert Bilder auf Wunsch radikal und sorgt dennoch dafür, dass Personen und Tiere erkennbar bleiben.

Google hat das neue Bild- und Editiermodell "Gemini 2.5 Flash Image Generation" veröffentlicht. Es baut auf der bisherigen nativen Gemini-Sprachmodell-Bildgenerierung auf und verhält sich bei der Prompt-Umsetzung daher ziemlich genau, ähnlich wie GPT-4o von ChatGPT, gerade im Vergleich zu reinen Bildmodellen mit geringerem Textverständnis.

Ein zentrales Merkmal von Gemini 2.5 Flash ist die sogenannte Charakterkonsistenz: Nutzer können eine Person, ein Objekt oder ein Tier über verschiedene Bilder hinweg visuell konsistent darstellen – etwa in unterschiedlichen Posen, Umgebungen oder Lichtverhältnissen.

Das neue Bildmodell kann Charaktere in verschiedenen Szenen darstellen. Ob die Funktion aufwendigere Fine-Tunings von Bildmodellen schlägt, bleibt noch abzuwarten. | Bild: Google Deepmind

Damit lassen sich etwa Bildreihen oder Produktabbildungen aus unterschiedlichen Perspektiven erstellen. Auch für einheitliche Markenbilder, Produktkataloge oder Mitarbeiterausweise ist das Modell laut Google einsetzbar.

Laut Google übertrifft die neue Gemini-Bildgenerierung bei verschiedenen Bildbearbeitungsaufgaben bisher verfügbare vergleichbare Bildsysteme teils deutlich.

Zudem ermöglicht das Modell präzise, lokal begrenzte Bearbeitungen per Texteingabe: Nutzer können ohne manuelle Auswahlwerkzeuge mit einem einfachen Prompt etwa den Hintergrund eines Fotos unscharf machen, Flecken entfernen, Farben hinzufügen oder komplette Objekte löschen. Eine weitere Vorlagen-App namens "PixShop" zeigt diese Bearbeitungsfunktionen mit UI- und Prompt-Steuerung.

Bildkomposition, Stiltransfer und Weltwissen

Gemini 2.5 Flash erlaubt es, bis zu drei Bilder miteinander zu verschmelzen. Dabei können Nutzer etwa ein Produktfoto und ein Raumfoto kombinieren, um fotorealistische Interior-Visualisierungen zu generieren. Auch komplexe Kompositionen mit mehreren Elementen lassen sich mit nur einem Prompt erzeugen. Für diese "Multi-Image Fusion" stellt Google ein interaktives Canvas-Tool zur Verfügung.

Darüber hinaus beherrscht das Modell stilistische Transformationen: Farbgebung, Textur oder Design eines Objekts lassen sich auf ein anderes übertragen, wobei dessen Form und Details erhalten bleiben. Ein Kleid im Schmetterlingsmuster oder Gummistiefel mit Blumenstruktur sind typische Anwendungsbeispiele.

Eine weitere Fähigkeit ist das "Real-World Reasoning": Das Modell kann einfache Kausalzusammenhänge erfassen und visuell darstellen. In einem Beispiel erzeugt es zunächst ein Bild eines Ballons, der auf einen Kaktus zufliegt und anschließend ein Folgebild, das die logische Konsequenz zeigt.

Empfehlung

KI in der Praxis

OpenAI veröffentlicht KI-Videogenerator Sora für ChatGPT-Abonnenten

Diese semantischen Fähigkeiten basieren auf dem Weltwissen von Gemini 2.5. Google veranschaulicht das anhand einer Mal-App, die Text-Instruktionen umsetzen kann.

Für Endverbraucher und Entwickler verfügbar

Die neue Funktion ist ab sofort innerhalb der Gemini-App verfügbar. Dafür darf man allerdings nicht das Bildmodell "Imagen" in der Bildleiste aktivieren, sondern muss bei den KI-Bildmodellen oben links auf das "Flash"-Sprachmodell wechseln. Das ist zunächst etwas verwirrend, aber insofern logisch, als es sich hier um eine native Bild-Editier-Funktion des Sprachmodells handelt.

Hat man das Sprachmodell ausgewählt, kann man dem System ein Bild füttern und Anweisungen geben, es zu verändern. Alle in der Gemini-App bearbeiteten oder generierten Bilder enthalten ein sichtbares Wasserzeichen sowie das digitale Wasserzeichen SynthID, das unsichtbar im Bild verankert ist.

Gemini 2.5 Flash Image ist zudem als Vorschauversion über die Gemini API, Google AI Studio und Vertex AI verfügbar. Die Nutzung kostet 30 US-Dollar pro einer Million Output-Token. Ein Bild verbraucht im Schnitt 1.290 Token, was rund 0,039 US-Dollar pro Bild entspricht; derselbe Preis wie beim Vorgängermodell Gemini 2.0 Flash Image.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Google veröffentlicht ein neues KI-Bildmodell mit deutlich verbesserter Bildbearbeitung

Bildkomposition, Stiltransfer und Weltwissen

OpenAI veröffentlicht KI-Videogenerator Sora für ChatGPT-Abonnenten

Für Endverbraucher und Entwickler verfügbar

Konkurrenz für Suno und Udio: OpenAI soll an KI-Musikmodell arbeiten

Meta-Forscher Yann LeCun stellt klar, dass er nicht an neuen Llama-Modellen gearbeitet hat

ChatGPT als Suchmaschine für Arbeitsdaten: OpenAI führt "Company Knowledge" ein

ChatGPTs Memory-Funktion könnte zur Werbefalle werden

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

Google veröffentlicht ein neues KI-Bildmodell mit deutlich verbesserter Bildbearbeitung

Bildkomposition, Stiltransfer und Weltwissen

Für Endverbraucher und Entwickler verfügbar

Artikel teilen

Bankverbindung