Bildgenerierung mit Nano Banana: Google erklärt die Unterschiede der drei Modelle

13. März 2026

Nano Banana Pro prompted by THE DECODER

Kurz & Knapp

- Google hat in einem ausführlichen Leitfaden die drei Modelle der Nano-Banana-Familie eingeordnet.
- Nano Banana 2 (Gemini 3.1 Flash Image) soll mit rund 95 Prozent der Fähigkeiten des teureren Nano Banana Pro für die meisten Projekte die erste Wahl sein.
- Das exklusive Feature von NB2 ist das sogenannte Image Grounding: Das Modell kann gezielt Bilder im Internet suchen, um das Aussehen realer Objekte wie bestimmter Gebäude oder Tierarten zu verstehen, bevor es sie generiert.

Mit Nano Banana 2 hat Google ein neues Bildgenerierungsmodell auf Basis von Gemini 3.1 Flash veröffentlicht. Ein offizieller Leitfaden ordnet die drei Modelle der Reihe ein und zeigt, wann welches zum Einsatz kommen sollte.

Google hat in einem ausführlichen Leitfaden die Fähigkeiten von Nano Banana 2 vorgestellt, dem neuesten Modell in der hauseigenen Bildgenerierungs-Reihe. Hinter dem internen Namen "Nano Banana 2" verbirgt sich Gemini 3.1 Flash Image. Mit drei Modellen in der Nano-Banana-Familie stellt sich für Entwickler und Kreative die Frage, welches Modell für welchen Zweck taugt.

Nano Banana 2 soll für fast alle Projekte die erste Wahl sein

Laut Google bietet Nano Banana 2 rund 95 Prozent der Fähigkeiten des teureren Nano Banana Pro, allerdings zu deutlich geringeren Kosten. Für die meisten neuen Projekte sei NB2 damit der empfohlene Standard.

Auflösung	Nano Banana 2 (Gemini 3.1 Flash)	Nano Banana Pro (Gemini 3 Pro)
0,5K	0,045 USD	-
1K	0,067 USD	0,134 USD
2K	0,101 USD	0,134 USD
4K	0,151 USD	0,240 USD

Nur bei hochkomplexen, mehrschichtigen Prompts oder extremen logischen Anforderungen, bei denen NB2 scheitere, lohne sich der Griff zum Pro-Modell. Das heißt aber auch: Nano Banana Pro ist weiter der Goldstandard für Bildmodelle.

Das ältere Nano Banana 1 bleibt laut dem Leitfaden weiterhin die günstigste Option und ist schneller als NB2, da es kein sogenanntes Thinking-Modell ist. Eine erzwungene Migration gibt es bislang nicht.

Wer allerdings neue Pipelines aufbaut, die mehr Nuancen, bessere Prompt-Befolgung oder die neuen Grounding-Funktionen erfordern, sollte laut Google direkt auf NB2 setzen. Ein praktischer Hinweis: Wer Bilder in 512-Pixel-Auflösung generiert, zahlt mit NB2 in etwa so viel wie mit NB1.

Bildsuche im Internet: Exklusiv-Feature von NB2

Die exklusive Neuerung von Nano Banana 2 ist das sogenannte Visual Grounding mit Google-Suche. Während Nano Banana Pro bereits textuelle Informationen aus dem Web abrufen konnte, geht NB2 einen Schritt weiter: Das Modell kann nun gezielt Bilder im Internet suchen, um das Aussehen realer Objekte zu verstehen, bevor es sie generiert.

Image Grounding soll besonders bei spezifischen Orten wie Kirchen, Brücken oder Stadtplätzen sowie bei exakten Tier- und Pflanzenarten funktionieren. Google demonstriert das etwa anhand einer Kirche in Voiron, Frankreich, oder der visuellen Unterscheidung zweier Schmetterlingsarten. Die Bildersuche funktioniert nicht für Personen.

Googles Beispiele für Image Grounding. | Bild: Google

Die Funktion scheint es bisher nur in der API zu geben, nicht in der Gemini-App. Entwickler finden Details zur Implementierung in der Dokumentation sowie in einem Python Colab aus dem offiziellen Cookbook.

Neue Auflösungen und extreme Seitenverhältnisse senken Kosten

Nano Banana 2 kann Bilder auch in 512-Pixel-Auflösung erzeugen, was die Generierung beschleunigt und die Kosten auf das Niveau von Nano Banana 1 drückt. Google empfiehlt dazu einen mehrstufigen Workflow: Über die Batch-API, die 50 Prozent Rabatt bietet, lassen sich zunächst Dutzende Varianten in 512px generieren. Die beste Komposition wird dann gezielt auf 1K, 2K oder 4K hochskaliert.

Hinzu kommen extreme Seitenverhältnisse von 1:8 und 1:4 in vertikaler wie horizontaler Ausrichtung. Laut Google eignen sich diese Formate etwa für Webbanner, fortlaufende Scroll-Inhalte oder Comic-Layouts im franko-belgischen Stil. Die folgende Tabelle bietet eine Übersicht über die Möglichkeiten beider Modelle.

Eigenschaft	Nano Banana 2 (Gemini 3.1 Flash Image)	Nano Banana Pro (Gemini 3 Pro Image)
Max. Input-Token	131.072	65.536
Max. Output-Token	32.768	32.768
Auflösungen	0,5K (512px), 1K, 2K, 4K	1K, 2K, 4K
Seitenverhältnisse	1:1, 3:2, 2:3, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9, 1:4, 4:1, 1:8, 8:1	1:1, 3:2, 2:3, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
Text Grounding (Websuche)	Ja	Ja
Image Grounding (Bildsuche)	Ja	Nein
Bild-Inputs	Bis zu 14 Referenzbilder (PNG, JPEG, WebP, HEIC, HEIF)	Bis zu 14 Referenzbilder (PNG, JPEG, WebP, HEIC, HEIF)
Dokument-Inputs	Text und PDF (max. 50 MB via API, 7 MB via Console)	Text und PDF (max. 50 MB via API, 7 MB via Console)
Outputs	Text und Bilder	Text und Bilder
Wissensbasis	Stand Januar 2025	Stand Januar 2025
Echtzeit-Websuche	Ja	Ja
Sicherheitsstandards	C2PA Content Credentials, SynthID-Wasserzeichen	C2PA Content Credentials, SynthID-Wasserzeichen

Auch zum Thinking-Modus für Nano Banana hat Google eine Empfehlung: Standardmäßig sollte der Modus deaktiviert bleiben, da er bei normaler Bildgenerierung primär Zeit und Rechenleistung kostet. Einschalten lohne sich nur in drei Szenarien: wenn das Modell unsinnige Ergebnisse liefert, bei der Erstellung hochkomplexer Infografiken oder wenn Image Grounding mit räumlichem Denken kombiniert werden soll.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: Google via X | Google Blog