OpenAI veröffentlicht neue ChatGPT-Bildgenerierung

25. März 2025

GPT-4o prompted by OpenAI

OpenAI hat endlich seine vor rund einem Jahr vorgestellte native Bildgenerierung für ChatGPT ausgerollt. Erste Ergebnisse machen Lust auf mehr.

Laut dem Unternehmen wird die im Mai 2024 zusammen mit GPT4o vorgestellte Bildgenerierungsfunktion der neue Standard-Bildgenerator für alle ChatGPT-Nutzergruppen - von Free bis Enterprise. Entwickler müssen sich noch etwas gedulden - der API-Zugang soll in den kommenden Wochen folgen. DALL-E bleibt als separate Option über einen speziellen GPT verfügbar.

Mehr KI-Bild-Präzision durch Multimodalität

Die native Integration der Bildgenerierung in das Sprachmodell soll präzisere und konsistentere Ergebnisse ermöglichen. Das System kann nach Angaben von OpenAI bis zu 20 verschiedene Objekte gleichzeitig verarbeiten und deren Beziehungen zueinander korrekt darstellen.

Das Pferd reitet auf dem Astronauten. Bisherige Bildmodelle können diese Aufgabe nicht lösen, stattdessen reitet der Astronaut auf dem Pferd - das ist alltäglicher. GPT-4o scheint hier einen neuen kreativen Freiraum zu schaffen. | Bild: GPT-4o prompted by THE DECODER

Eine besondere Stärke des Systems liegt in der präzisen Textwiedergabe innerhalb generierter Bilder, was etwa Infografiken ermöglichen soll oder Logos.

OpenAI betont, dass GPT-4o durch sein breites Weltwissen auch komplexe Zusammenhänge visuell darstellen kann. Eine weitere Fähigkeit sei das "In-Kontext-Lernen", bei dem GPT-4o vom Nutzer hochgeladene Bilder analysieren und deren Details in neue Bildgenerierungen einfließen lässt.

Die Bildgenerierung lässt sich über natürliche Gespräche steuern und verfeinern. Nutzer können Bilder schrittweise anpassen, wobei das System den Kontext über mehrere Dialogrunden hinweg behält.

Erste Tests zeigen, dass die Bildkonsistenz viel höher ist als zuvor bei DALL-E 3, aber nicht perfekt. So können sich an Charakteren etwa Details verändern, etwa ein leicht veränderter Haarwuchs.

Laut OpenAI sind die Einschränkungen gelegentliches falsches Zuschneiden von Bildern, mögliche Halluzinationen (ähnlich wie bei Textmodellen), Schwierigkeiten bei der Darstellung sehr vieler distinkter Konzepte gleichzeitig und ungenaue Darstellung von Text in nicht-lateinischen Schriften. Die Präzision bei der Bearbeitung spezifischer Bildteile sei ebenfalls bisher nicht optimal und werde verbessert.

OpenAI stattet alle generierten Bilder mit C2PA-Metadaten aus, die ihre KI-Herkunft kennzeichnen. Ein internes Suchsystem soll zusätzlich dabei helfen, Bilder aus GPT-4o zu identifizieren.

OpenAI will weniger stark kontrollieren

Anfragen für problematische Inhalte wie Deepfakes oder Gewaltdarstellungen werden blockiert. Bei der Darstellung realer Personen gelten besonders strenge Regeln. Insgesamt aber soll das Bildmodell mehr kreativen Freiraum bieten als das sehr restriktive DALL-E 3 und laut OpenAI CEO Sam Altman "innerhalb eines gesunden Menschenverstands" auch potenziell anstößige Inhalte zulassen.

Vor kurzem hatte bereits Google eine ähnliche Funktion für sein Gemini-Modell veröffentlicht. Google betonte dabei ähnliche Vorteile wie Konsistenz über mehrere Bilder hinweg, konversationelle Bearbeitung und präzise Textdarstellung

Für die bekannten Bildgeneratoren wie Midjourney oder Ideogram gibt es auf jeden Fall noch einige Hausaufgaben zu erledigen. Sie bieten zwar eine überlegene, auf die Bildgenerierung ausgerichtete Benutzeroberfläche. Sie erreichen aber nicht die Genauigkeit nativer multimodaler Modelle. Letzteres dürfte für die Bildkreation aber häufig entscheidender sein.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

OpenAI veröffentlicht neue ChatGPT-Bildgenerierung

Mehr KI-Bild-Präzision durch Multimodalität

OpenAI will weniger stark kontrollieren

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.