"Nano Banana Pro": Googles neues Bildmodell bietet beeindruckende Prompt-Präzision
Kurz & Knapp
- Google hat das Bildmodell "Nano Banana Pro" (Gemini 3 Pro Image) veröffentlicht, das komplexe Szenen logisch aufbauen und Text in Bildern korrekt darstellen soll.
- Das System integriert "Reasoning"-Fähigkeiten, verarbeitet bis zu 14 Inputs für ein neues Motiv, simuliert physikalische Zusammenhänge für bessere Genauigkeit und kann Echtzeitdaten wie Wetterkarten oder Infografiken generieren. Sogar Infografiken sind jetzt möglich.
- Das Modell ist für gewerbliche Nutzer als kostenpflichtige Preview über die Gemini-API verfügbar; Privatnutzer erhalten über die Gemini-App ein begrenztes Kontingent, danach wird auf das Vorgängermodell zurückgegriffen.
Google aktualisiert sein Bildmodell auf "Nano Banana Pro" a. k. a. "Gemini 3 Pro Image". Das neue System soll komplexe Szenen logisch konsistent aufbauen, Text oft fehlerfrei darstellen und Echtzeitdaten visualisieren können. Es scheint sogar für Infografiken nützlich zu sein.
Google hat mit Nano Banana Pro, auch bekannt als Gemini 3 Pro Image, ein neues KI-Modell zur Bildgenerierung vorgestellt. Es ist der Nachfolger des im August veröffentlichten Gemini-2.5-Flash Image und soll komplexe Szenen physikalisch konsistent aufbauen, Text korrekt darstellen und Echtzeitdaten visualisieren können.
Nutzer können bis zu 14 Eingaben kombinieren, darunter Logos, Referenzbilder oder Skizzen. Die Konsistenz von bis zu fünf Charakteren bleibt dabei erhalten. Die Ausgabe kann in bis zu 4K-Auflösung erfolgen, einzelne Bildbereiche lassen sich gezielt bearbeiten – etwa Fokus, Helligkeit oder Farbgebung.
Das Modell steht als kostenpflichtige Vorschau über die Gemini-API, Google AI Studio und Vertex AI zur Verfügung. Privatnutzer erhalten über Gemini eingeschränkten Zugang – mit begrenztem Kontingent für Gratisnutzer und erweitertem Zugriff für Pro- und Ultra-Abonnenten.
Zwischen KI und Physik: Googles Bildmodell denkt vor dem Rendern
Im Unterschied zu herkömmlichen Diffusionsmodellen integriert Gemini 3 Pro eine "Reasoning"-Komponente. Laut technischer Beschreibung analysiert das Modell vor der Bildausgabe die Eingabe und prüft logische und physikalische Bedingungen – etwa Lichtquellen, Schattenverläufe, Kameraperspektiven oder Schärfentiefe. Ziel ist eine plausiblere Bildausgabe, insbesondere bei Architektur, Produktvisualisierungen oder komplexen Szenen mit mehreren Lichtquellen.
Über die Funktion "Grounding with Google Search" kann das Modell zudem auf Echtzeitinformationen zugreifen – etwa zur Darstellung aktueller Wetterkarten, Infografiken oder historischer Szenen. Das System akzeptiert multimodale Eingaben (Text und Bild) und kann auch gemischte Ausgaben erzeugen. Das Token-Limit liegt bei 64.000 (Eingabe) bzw. 32.000 (Ausgabe).

Textverarbeitung in Bildern verbessert
Ein Schwerpunkt liegt auf der Darstellung von Text innerhalb von Bildern. Gemini 3 Pro soll längere Textpassagen leserlich und fehlerfrei darstellen, auch in verschiedenen Sprachen. Dabei bleibt der ursprüngliche visuelle Stil erhalten, etwa bei Plakaten oder Verpackungen. Übersetzungen erfolgen kontextbasiert mit typografischer Konsistenz.
Der Bearbeitungsprozess ist auf wiederholte Interaktion ausgelegt ("Multi-Turn Image Editing"). Nutzer können Bilder schrittweise über mehrere Runden verändern. Beispielhafte Anwendungen zeigen lokalisierte Werbemotive oder Infografiken, etwa zur Zubereitung von Elaichi Chai oder fiktive Darstellungen wie ein humoristisches Poster über „Grey Aliens“.


Gemini 3 Pro ist in Googles neue Entwicklerplattform Antigravity eingebunden. Dort können Coding Agents das Modell zur Generierung von UI-Mockups oder visuellen Assets nutzen. Für Werbetreibende wird die Bildgenerierung in Google Ads weltweit eingeführt, zunächst in acht Sprachen, darunter Deutsch. Kreative Nutzer mit einem „Google AI Ultra“-Abo erhalten Zugriff über das Filmproduktions-Tool „Flow“.
Alle mit Gemini 3 Pro erzeugten Bilder werden unsichtbar mit Googles SynthID-Technologie markiert. Zusätzlich erhalten Gratis- und Pro-Nutzer ein sichtbares Wasserzeichen. Nur Ultra-Abonnenten können Bilder ohne sichtbare Markierung erstellen. Die Rückverfolgbarkeit ist über ein Upload-Tool in Gemini möglich.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren