OpenAI neues ChatGPT-Bildmodell setzt Prompts viel präziser und schneller um
Kurz & Knapp
- OpenAI hat mit GPT Image 1.5 ein neues Bildgenerierungsmodell für ChatGPT veröffentlicht, das Prompts besser folgt und zudem schneller ist.
- Das Modell soll komplexe Anweisungen zuverlässiger umsetzen, etwa ein 6×6-Raster mit 36 verschiedenen Objekten korrekt darstellen, und bei der Bildbearbeitung Elemente wie Beleuchtung, Komposition und das Aussehen von Personen konsistent halten.
- Für Entwickler sind die API-Preise trotz der Leistungssteigerung um 20 Prozent gesunken; OpenAI bewirbt das Modell insbesondere für Marketing- und E-Commerce-Anwendungen wegen der besseren Erhaltung von Markenlogos und visuellen Elementen.
OpenAI veröffentlicht ein neues Bildgenerierungsmodell für ChatGPT, das bis zu viermal schneller arbeiten und Anweisungen präziser befolgen soll.
Das neue Modell GPT-Image 1.5 soll laut OpenAI mehrere wesentliche Verbesserungen gegenüber der bisherigen Bildgenerierung bieten: präzisere Bearbeitung, bessere Erhaltung von Details und deutlich schnellere Generierungszeiten.
Das neue Modell generiert Bilder laut OpenAI zudem bis zu viermal schneller als bisher. Nutzer können neue Bilder generieren, während andere noch in Bearbeitung sind. Das Modell ist ab sofort für alle ChatGPT-Nutzer und über die API verfügbar.
OpenAIs App-CEO Fidji Simo beschreibt die neue Bildgenerierung als Teil einer breiteren Transformation: ChatGPT solle sich von einem reaktiven, textbasierten Produkt zu einer "vollständig generativen UI" entwickeln, die je nach Aufgabe die richtigen Komponenten einblendet.
Mehr Konsistenz bei Objekten und Charakteren
Eine der zentralen Neuerungen betrifft die Bildbearbeitung. Das Modell soll nun zuverlässiger nur die gewünschten Änderungen vornehmen und dabei Elemente wie Beleuchtung, Komposition und das Aussehen von Personen konsistent halten. OpenAI nennt verschiedene Bearbeitungstypen, die das Modell beherrschen soll: Hinzufügen, Entfernen, Kombinieren, Mischen und Transponieren von Bildelementen.
Praktische Anwendungsfälle umfassen laut dem Unternehmen Fotobearbeitungen, virtuelle Kleidungs- und Frisuren-Anproben sowie stilistische Transformationen. In den Beispielen zeigt OpenAI etwa, wie mehrere Personen und ein Hund aus separaten Fotos zu einer Szene kombiniert werden, oder wie ein Foto in ein Filmplakat im Stil des goldenen Hollywood-Zeitalters verwandelt wird.
Komplexe Anweisungen werden besser verstanden
Das Modell soll Anweisungen viel zuverlässiger befolgen als die Vorgängerversion. OpenAI demonstriert dies anhand eines 6 × 6-Rasters mit spezifischen Objekten in jeder Zelle, das die neue Version korrekt umsetzt, während die alte Version daran scheiterte. Dies ermögliche auch komplexere Originalkompositionen, bei denen die Beziehungen zwischen Elementen wie beabsichtigt erhalten bleiben.

Auch beim Textrendering soll das Modell einen Schritt voraus sein. Es könne dichtere und kleinere Texte verarbeiten, etwa komplette Zeitungsartikel mit Tabellen oder Infografiken mit Kalorienwerten. Schwächen gibt es laut OpenAI noch bei der Darstellung verschiedener Stile, mehrerer Gesichter und mehrsprachiger Inhalte.
Bei unserem Benchmark-Prompt der eine detaillierte, komplexe, fotorealistische Szene mit ungewöhnlichem Element verlangt (Pferd reitet Astronaut), schneidet die neue Bildgenerierung hervorragend ab – auf Augenhöhe mit Googles Nano Banana Pro, und stark verbessert gegenüber dem Vorgängermodell.



Der erste Eindruck ist zudem, dass das ChatGPT-Bildmodell im Vergleich zu Googles Nano Banana Pro mit demselben Prompt intensiver wirkende Bilder generiert. Beim selben Prompt nimmt Nano Banana Pro die Eingabe wörtlicher und erzeugt eher einen Foto-Look als einen Fotoshooting-Look. Das kann allerdings eine Frage des Promptings sein.



Den "Deutschlandkarten-Test" besteht der neue ChatGPT-Bildgenerator zwar noch immer nicht, aber die Verbesserung ist im Vergleich zu früheren Versuchen deutlich.

Trotz besserer Leistung: API-Preise sinken um 20 Prozent
Für Entwickler ist das Modell als GPT Image 1.5 über die API verfügbar. Bild-Ein- und ‑Ausgaben sind laut OpenAI 20 Prozent günstiger als beim Vorgängermodell. Die Preise liegen bei 8 Dollar pro Million Input-Tokens und 32 Dollar pro Million Output-Tokens für Bilder. Für Text-Tokens werden 5 Dollar (Input) beziehungsweise 10 Dollar (Output) pro Million Tokens fällig. Beim Vorgängermodell GPT-1 kosteten die Bilder je nach gewählter Bildqualität zwischen 0,02 Cent und 0,19 Cent pro Bild.
Das Unternehmen bewirbt die bessere Erhaltung von Markenlogos und visuellen Elementen als Vorteil für Marketing- und E-Commerce-Anwendungen. Die frühere Version der ChatGPT-Bildgenerierung bleibt als Custom-GPT verfügbar.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnieren