Inhalt
summary Zusammenfassung

Google Deepmind integriert ein neues Bildbearbeitungsmodell in die Gemini-App. Die Software verändert Bilder auf Wunsch radikal und sorgt dennoch dafür, dass Personen und Tiere erkennbar bleiben.

Anzeige

Google hat das neue Bild- und Editiermodell "Gemini 2.5 Flash Image Generation" veröffentlicht. Es baut auf der bisherigen nativen Gemini-Sprachmodell-Bildgenerierung auf und verhält sich bei der Prompt-Umsetzung daher ziemlich genau, ähnlich wie GPT-4o von ChatGPT, gerade im Vergleich zu reinen Bildmodellen mit geringerem Textverständnis.

Ein zentrales Merkmal von Gemini 2.5 Flash ist die sogenannte Charakterkonsistenz: Nutzer können eine Person, ein Objekt oder ein Tier über verschiedene Bilder hinweg visuell konsistent darstellen – etwa in unterschiedlichen Posen, Umgebungen oder Lichtverhältnissen.

Das neue Bildmodell kann Charaktere in verschiedenen Szenen darstellen. Ob die Funktion aufwendigere Fine-Tunings von Bildmodellen schlägt, bleibt noch abzuwarten. | Bild: Google Deepmind

Damit lassen sich etwa Bildreihen oder Produktabbildungen aus unterschiedlichen Perspektiven erstellen. Auch für einheitliche Markenbilder, Produktkataloge oder Mitarbeiterausweise ist das Modell laut Google einsetzbar.

Anzeige
Anzeige

Laut Google übertrifft die neue Gemini-Bildgenerierung bei verschiedenen Bildbearbeitungsaufgaben bisher verfügbare vergleichbare Bildsysteme teils deutlich.

Bild: Google

Zudem ermöglicht das Modell präzise, lokal begrenzte Bearbeitungen per Texteingabe: Nutzer können ohne manuelle Auswahlwerkzeuge mit einem einfachen Prompt etwa den Hintergrund eines Fotos unscharf machen, Flecken entfernen, Farben hinzufügen oder komplette Objekte löschen. Eine weitere Vorlagen-App namens "PixShop" zeigt diese Bearbeitungsfunktionen mit UI- und Prompt-Steuerung.

Bild: Google Deepmind

Bildkomposition, Stiltransfer und Weltwissen

Gemini 2.5 Flash erlaubt es, bis zu drei Bilder miteinander zu verschmelzen. Dabei können Nutzer etwa ein Produktfoto und ein Raumfoto kombinieren, um fotorealistische Interior-Visualisierungen zu generieren. Auch komplexe Kompositionen mit mehreren Elementen lassen sich mit nur einem Prompt erzeugen. Für diese "Multi-Image Fusion" stellt Google ein interaktives Canvas-Tool zur Verfügung.

Bild: Google Deepmind

Darüber hinaus beherrscht das Modell stilistische Transformationen: Farbgebung, Textur oder Design eines Objekts lassen sich auf ein anderes übertragen, wobei dessen Form und Details erhalten bleiben. Ein Kleid im Schmetterlingsmuster oder Gummistiefel mit Blumenstruktur sind typische Anwendungsbeispiele.

Bild: Google Deepmind

Eine weitere Fähigkeit ist das "Real-World Reasoning": Das Modell kann einfache Kausalzusammenhänge erfassen und visuell darstellen. In einem Beispiel erzeugt es zunächst ein Bild eines Ballons, der auf einen Kaktus zufliegt und anschließend ein Folge­bild, das die logische Konsequenz zeigt.

Empfehlung
Bild: Google Deepmind

Diese semantischen Fähigkeiten basieren auf dem Weltwissen von Gemini 2.5. Google veranschaulicht das anhand einer Mal-App, die Text-Instruktionen umsetzen kann.

Für Endverbraucher und Entwickler verfügbar

Die neue Funktion ist ab sofort innerhalb der Gemini-App verfügbar. Dafür darf man allerdings nicht das Bildmodell "Imagen" in der Bildleiste aktivieren, sondern muss bei den KI-Bildmodellen oben links auf das "Flash"-Sprachmodell wechseln. Das ist zunächst etwas verwirrend, aber insofern logisch, als es sich hier um eine native Bild-Editier-Funktion des Sprachmodells handelt.

Bild: Screenshot THE DECODER

Hat man das Sprachmodell ausgewählt, kann man dem System ein Bild füttern und Anweisungen geben, es zu verändern. Alle in der Gemini-App bearbeiteten oder generierten Bilder enthalten ein sichtbares Wasserzeichen sowie das digitale Wasserzeichen SynthID, das unsichtbar im Bild verankert ist.

Gemini 2.5 Flash Image ist zudem als Vorschauversion über die Gemini API, Google AI Studio und Vertex AI verfügbar. Die Nutzung kostet 30 US-Dollar pro einer Million Output-Token. Ein Bild verbraucht im Schnitt 1.290 Token, was rund 0,039 US-Dollar pro Bild entspricht; derselbe Preis wie beim Vorgängermodell Gemini 2.0 Flash Image.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google Deepmind hat das Bildbearbeitungsmodell Gemini 2.5 Flash in die Gemini-App integriert. Es ermöglicht KI-gestützte Bildveränderungen per Texteingabe, etwa das Entfernen von Objekten oder das Erzeugen stilistisch konsistenter Bilderreihen.
  • Nutzer können eine Person oder ein Objekt in verschiedenen Posen und Lichtverhältnissen visuell einheitlich darstellen. Das Modell erlaubt zudem das Verschmelzen mehrerer Bilder, Stilübertragungen und einfache visuelle Schlussfolgerungen, basierend auf Textanweisungen.
  • Die Funktion ist über die Gemini-App verfügbar, wenn man das Sprachmodell "Flash" aktiviert. Entwickler können Gemini 2.5 Flash auch über die Gemini API, Google AI Studio und Vertex AI nutzen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!