OpenAIs ChatGPT Images 2.0 könnte die gesamte Grafikwelt auf den Kopf stellen
OpenAI stattet seinen Bildgenerator ChatGPT Images 2.0 mit Denkfähigkeiten und Websuche aus. Der Generator kann nun bis zu acht konsistente Bilder aus einem einzigen Prompt erstellen und beherrscht Text in nicht-lateinischen Schriften deutlich besser.
Update:
OpenAIs neues Bildmodell ist offiziell. ChatGPT Images 2.0 basiert auf dem neuen GPT Image 2-Modell und bringt laut einem Blogpost des Unternehmens dieselbe Fähigkeit wie Googles Nano Banana Pro: Das Modell "denkt", bevor es generiert, je nach eingestelltem Modell kürzer oder länger, und kann dabei sogar das Internet durchsuchen. Das soll eine höhere Vielfalt und Genauigkeit bei generierten Bildern ermöglichen. Erweiterte Ausgaben mit Thinking sind allerdings nur für ChatGPT Plus-, Pro- und Business-Nutzer verfügbar.
Mit aktiviertem Denkmodus erzeugt ChatGPT Images 2.0 bis zu acht Bilder gleichzeitig aus einem einzigen Prompt. Dabei sollen Charaktere, Objekte und Stile über alle Szenen hinweg konsistent bleiben. OpenAI nennt als Anwendungsbeispiele Manga-Seiten, Serien von Social-Media-Grafiken oder Designpläne für verschiedene Räume eines Hauses.
Bessere Bildqualität für alle Nutzer
Unabhängig vom Denkmodus erhalten alle ChatGPT-Nutzer Verbesserungen bei der Bildqualität. Der Generator soll laut OpenAI die "charakteristischen Merkmale von Fotos" besser erfassen und Fortschritte bei Pixel Art, Manga, Filmstills und anderen Bildtypen erzielen. Das Modell soll zudem feinkörnige Elemente bewältigen, an denen bisherige Bildmodelle regelmäßig scheiterten: kleiner Text, Ikonografie, UI-Elemente, dichte Kompositionen und subtile stilistische Vorgaben.
Die Unterstützung für Seitenverhältnisse reicht von 3:1 (ultrabreit) bis 1:3 (ultrahoch), was Formate von Bannern über Präsentationsfolien bis zu mobilen Screens abdecken soll. Die Auflösung reicht in der API bis zu 2K.
API-Preise: Token-basiert und qualitätsabhängig
Über die API können Entwickler das Modell unter dem Namen gpt-image-2 in eigene Produkte integrieren. OpenAI berechnet die Kosten auf Token-Basis: 8 Dollar pro eine Million Bild-Input-Token und 30 Dollar pro eine Million Bild-Output-Token. Für Text-Token fallen 5 Dollar (Input) beziehungsweise 10 Dollar (Output) pro Million an. Gecachte Eingaben sind deutlich günstiger.
In der Praxis hängen die Kosten pro Bild stark von Qualität und Auflösung ab. Laut der Preisübersicht von OpenAI kostet ein Bild mit 1024 × 1024 Pixeln in niedriger Qualität nur 0,006 Dollar, in mittlerer Qualität 0,053 Dollar und in hoher Qualität 0,211 Dollar. Bei größeren Auflösungen wie 1024 × 1536 sinken die Kosten leicht auf 0,005, 0,041 beziehungsweise 0,165 Dollar.
| Model | Quality | 1024 x 1024 | 1024 x 1536 | 1536 x 1024 |
|---|---|---|---|---|
| GPT Image 2
Mehr Größen verfügbar |
Low | $0.006 | $0.005 | $0.005 |
| Medium | $0.053 | $0.041 | $0.041 | |
| High | $0.211 | $0.165 | $0.165 | |
| GPT Image 1.5 | Low | $0.009 | $0.013 | $0.013 |
| Medium | $0.034 | $0.05 | $0.05 | |
| High | $0.133 | $0.2 | $0.2 |
Bei größeren Formaten ist GPT Image 2 günstiger als seine Vorgänger: 1024 × 1536 in hoher Qualität kostet 0,165 Dollar statt 0,20 Dollar bei GPT Image 1.5 und 0,25 Dollar bei GPT Image 1.5. Bei der Standardauflösung 1024 × 1024 in hoher Qualität ist das neue Modell mit 0,211 Dollar allerdings teurer als GPT Image 1.5 (0,133 Dollar). API-Ausgaben über 2K befinden sich noch in der Beta und können inkonsistente Ergebnisse liefern.
OpenAI nennt als Anwendungsfälle lokalisierte Werbung, Infografiken, Bildungsinhalte, Design-Tools und kreative Plattformen. In Codex soll die Bildgenerierung direkt im Arbeitsbereich nutzbar sein, ohne separaten API-Schlüssel.
In unserem eigenen Benchmark-Prompt schneidet ChatGPT-Image-2 hervorragend ab. Beide Modellvarianten, Instant und Thinking, lösen den komplexen und abstrakten Prompt detailgetreu.
A hyper-realistic DSLR photo. A monkey holding a pink banana is sitting on a tiger in the foreground. In the background, a HORSE is RIDING AN ASTRONAUT. The astronaut is underneath like a living “spacesuit horse saddle,” and the HORSE is clearly on top, in control, as the rider. Make it 100% unambiguous: the HORSE is the rider and the ASTRONAUT is being ridden, NOT the other way around. High-resolution, sharp focus, realistic lighting.
Das Instant-Modell hat dabei einen leicht künstlichen Look; die Thinking-Variante löst den DSLR-Anspruch deutlich besser.



Ursprünglicher Artikel:
OpenAIs neues Bildmodell wird bald erscheinen. Das Modell, das seit geraumer Zeit unter dem Codenamen "gpt-image-2" kursiert, wird bereits von einigen ChatGPT-Nutzern und auf Bestenlisten getestet. Auf Plattformen wie X und Reddit tauchten in den vergangenen Wochen erste Bilder auf, die kaum mehr von echten Fotos zu unterscheiden sind. Bislang scheinen nur Tester aus den USA oder mit US-Accounts Zugriff auf das Modell erhalten zu haben.

Das neue Modell soll insbesondere besser bei komplexen Bildern und Diagrammen mit Text sein. So soll es etwa detaillierte Screenshots generieren können. Entsprechend könnte das Modell auch für Werbung und Bildungsinhalte, etwa Infografiken, nützlich sein, da es Text zuverlässiger darstellt.

Zudem soll der typische "KI-Look" mit perfekter Beleuchtung und glatten Gesichtern behoben sein, der auch GPT-image 1.5 noch plagte. Bislang hatte hier Googles Nano Banana Pro die Nase deutlich vorn. OpenAI stellt sein neues Bildmodell offiziell heute Abend in einem Livestream ab 21 Uhr deutscher Zeit vor.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenDer Rest ist für Abonnenten.
Jetzt Abo abschließen.
- Zugriff auf alle THE DECODER Artikel.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.