Anzeige
Skip to content

OpenAIs ChatGPT Images 2.0 könnte die gesamte Grafikwelt auf den Kopf stellen

Image description
ChatGPT-Image-2 prompted by THE DECODER

OpenAI stattet seinen Bildgenerator ChatGPT Images 2.0 mit Denkfähigkeiten und Websuche aus. Der Generator kann nun bis zu acht konsistente Bilder aus einem einzigen Prompt erstellen und beherrscht Text in nicht-lateinischen Schriften deutlich besser.

Update:

OpenAIs neues Bildmodell ist offiziell. ChatGPT Images 2.0 basiert auf dem neuen GPT Image 2-Modell und bringt laut einem Blogpost des Unternehmens dieselbe Fähigkeit wie Googles Nano Banana Pro: Das Modell "denkt", bevor es generiert, je nach eingestelltem Modell kürzer oder länger, und kann dabei sogar das Internet durchsuchen. Das soll eine höhere Vielfalt und Genauigkeit bei generierten Bildern ermöglichen. Erweiterte Ausgaben mit Thinking sind allerdings nur für ChatGPT Plus-, Pro- und Business-Nutzer verfügbar.

Mit aktiviertem Denkmodus erzeugt ChatGPT Images 2.0 bis zu acht Bilder gleichzeitig aus einem einzigen Prompt. Dabei sollen Charaktere, Objekte und Stile über alle Szenen hinweg konsistent bleiben. OpenAI nennt als Anwendungsbeispiele Manga-Seiten, Serien von Social-Media-Grafiken oder Designpläne für verschiedene Räume eines Hauses.

Bessere Bildqualität für alle Nutzer

Unabhängig vom Denkmodus erhalten alle ChatGPT-Nutzer Verbesserungen bei der Bildqualität. Der Generator soll laut OpenAI die "charakteristischen Merkmale von Fotos" besser erfassen und Fortschritte bei Pixel Art, Manga, Filmstills und anderen Bildtypen erzielen. Das Modell soll zudem feinkörnige Elemente bewältigen, an denen bisherige Bildmodelle regelmäßig scheiterten: kleiner Text, Ikonografie, UI-Elemente, dichte Kompositionen und subtile stilistische Vorgaben.

Die Unterstützung für Seitenverhältnisse reicht von 3:1 (ultrabreit) bis 1:3 (ultrahoch), was Formate von Bannern über Präsentationsfolien bis zu mobilen Screens abdecken soll. Die Auflösung reicht in der API bis zu 2K.

API-Preise: Token-basiert und qualitätsabhängig

Über die API können Entwickler das Modell unter dem Namen gpt-image-2 in eigene Produkte integrieren. OpenAI berechnet die Kosten auf Token-Basis: 8 Dollar pro eine Million Bild-Input-Token und 30 Dollar pro eine Million Bild-Output-Token. Für Text-Token fallen 5 Dollar (Input) beziehungsweise 10 Dollar (Output) pro Million an. Gecachte Eingaben sind deutlich günstiger.

In der Praxis hängen die Kosten pro Bild stark von Qualität und Auflösung ab. Laut der Preisübersicht von OpenAI kostet ein Bild mit 1024 × 1024 Pixeln in niedriger Qualität nur 0,006 Dollar, in mittlerer Qualität 0,053 Dollar und in hoher Qualität 0,211 Dollar. Bei größeren Auflösungen wie 1024 × 1536 sinken die Kosten leicht auf 0,005, 0,041 beziehungsweise 0,165 Dollar.

Model Quality 1024 x 1024 1024 x 1536 1536 x 1024
GPT Image 2

Mehr Größen verfügbar

Low $0.006 $0.005 $0.005
Medium $0.053 $0.041 $0.041
High $0.211 $0.165 $0.165
GPT Image 1.5 Low $0.009 $0.013 $0.013
Medium $0.034 $0.05 $0.05
High $0.133 $0.2 $0.2

Bei größeren Formaten ist GPT Image 2 günstiger als seine Vorgänger: 1024 × 1536 in hoher Qualität kostet 0,165 Dollar statt 0,20 Dollar bei GPT Image 1.5 und 0,25 Dollar bei GPT Image 1.5. Bei der Standardauflösung 1024 × 1024 in hoher Qualität ist das neue Modell mit 0,211 Dollar allerdings teurer als GPT Image 1.5 (0,133 Dollar). API-Ausgaben über 2K befinden sich noch in der Beta und können inkonsistente Ergebnisse liefern.

OpenAI nennt als Anwendungsfälle lokalisierte Werbung, Infografiken, Bildungsinhalte, Design-Tools und kreative Plattformen. In Codex soll die Bildgenerierung direkt im Arbeitsbereich nutzbar sein, ohne separaten API-Schlüssel.

In unserem eigenen Benchmark-Prompt schneidet ChatGPT-Image-2 hervorragend ab. Beide Modellvarianten, Instant und Thinking, lösen den komplexen und abstrakten Prompt detailgetreu.

A hyper-realistic DSLR photo. A monkey holding a pink banana is sitting on a tiger in the foreground. In the background, a HORSE is RIDING AN ASTRONAUT. The astronaut is underneath like a living “spacesuit horse saddle,” and the HORSE is clearly on top, in control, as the rider. Make it 100% unambiguous: the HORSE is the rider and the ASTRONAUT is being ridden, NOT the other way around. High-resolution, sharp focus, realistic lighting.

Das Instant-Modell hat dabei einen leicht künstlichen Look; die Thinking-Variante löst den DSLR-Anspruch deutlich besser.

Standard-Version
Thinking-Version
Bonus-Prompt: Dieser Artikel als Heftauszug. Erstelle das Bild einer Doppelseite aus einem Magazin im BYTE-Stil aus den 80ern, das auf einem Tisch liegt. Das ist der Text im Magazin. Erstelle passende Bilder dazwischen, die vermeintlich von GPT Image 2 generierte Bilder zeigen, die durch beeindruckenden Detailgrad und Realismus bestechen (aber in Wirklichkeit eben so sind, wie man in den 80ern gedacht hätte, was krass wäre für ein neuronales Netz, also richtig beschissene Qualität, eher so wie GANs oder Dall-E 1 maximal). Das Magazin heißt „THE DECODER”.

Ursprünglicher Artikel:

OpenAIs neues Bildmodell wird bald erscheinen. Das Modell, das seit geraumer Zeit unter dem Codenamen "gpt-image-2" kursiert, wird bereits von einigen ChatGPT-Nutzern und auf Bestenlisten getestet. Auf Plattformen wie X und Reddit tauchten in den vergangenen Wochen erste Bilder auf, die kaum mehr von echten Fotos zu unterscheiden sind. Bislang scheinen nur Tester aus den USA oder mit US-Accounts Zugriff auf das Modell erhalten zu haben.

Beispiel für ein mit Image 2 generiertes Fake-Foto: Microsoft-CEO präsentiert stolz, dass der Google-Chrome-Browser am häufigsten über Edge heruntergeladen wird. | Bild: via X

Das neue Modell soll insbesondere besser bei komplexen Bildern und Diagrammen mit Text sein. So soll es etwa detaillierte Screenshots generieren können. Entsprechend könnte das Modell auch für Werbung und Bildungsinhalte, etwa Infografiken, nützlich sein, da es Text zuverlässiger darstellt.

OpenAI kündigt den Livestream fürs neue Bildmodell mit einem generierten Screenshot an. | Bild: OpenAI

Zudem soll der typische "KI-Look" mit perfekter Beleuchtung und glatten Gesichtern behoben sein, der auch GPT-image 1.5 noch plagte. Bislang hatte hier Googles Nano Banana Pro die Nase deutlich vorn. OpenAI stellt sein neues Bildmodell offiziell heute Abend in einem Livestream ab 21 Uhr deutscher Zeit vor.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Der Rest ist für Abonnenten.
Jetzt Abo abschließen.

  • Zugriff auf alle THE DECODER Artikel.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren