OpenAI hat endlich seine vor rund einem Jahr vorgestellte native Bildgenerierung für ChatGPT ausgerollt. Erste Ergebnisse machen Lust auf mehr.
Laut dem Unternehmen wird die im Mai 2024 zusammen mit GPT4o vorgestellte Bildgenerierungsfunktion der neue Standard-Bildgenerator für alle ChatGPT-Nutzergruppen - von Free bis Enterprise. Entwickler müssen sich noch etwas gedulden - der API-Zugang soll in den kommenden Wochen folgen. DALL-E bleibt als separate Option über einen speziellen GPT verfügbar.
Mehr KI-Bild-Präzision durch Multimodalität
Die native Integration der Bildgenerierung in das Sprachmodell soll präzisere und konsistentere Ergebnisse ermöglichen. Das System kann nach Angaben von OpenAI bis zu 20 verschiedene Objekte gleichzeitig verarbeiten und deren Beziehungen zueinander korrekt darstellen.

Eine besondere Stärke des Systems liegt in der präzisen Textwiedergabe innerhalb generierter Bilder, was etwa Infografiken ermöglichen soll oder Logos.
OpenAI betont, dass GPT-4o durch sein breites Weltwissen auch komplexe Zusammenhänge visuell darstellen kann. Eine weitere Fähigkeit sei das "In-Kontext-Lernen", bei dem GPT-4o vom Nutzer hochgeladene Bilder analysieren und deren Details in neue Bildgenerierungen einfließen lässt.
Die Bildgenerierung lässt sich über natürliche Gespräche steuern und verfeinern. Nutzer können Bilder schrittweise anpassen, wobei das System den Kontext über mehrere Dialogrunden hinweg behält.
Erste Tests zeigen, dass die Bildkonsistenz viel höher ist als zuvor bei DALL-E 3, aber nicht perfekt. So können sich an Charakteren etwa Details verändern, etwa ein leicht veränderter Haarwuchs.
Laut OpenAI sind die Einschränkungen gelegentliches falsches Zuschneiden von Bildern, mögliche Halluzinationen (ähnlich wie bei Textmodellen), Schwierigkeiten bei der Darstellung sehr vieler distinkter Konzepte gleichzeitig und ungenaue Darstellung von Text in nicht-lateinischen Schriften. Die Präzision bei der Bearbeitung spezifischer Bildteile sei ebenfalls bisher nicht optimal und werde verbessert.
OpenAI stattet alle generierten Bilder mit C2PA-Metadaten aus, die ihre KI-Herkunft kennzeichnen. Ein internes Suchsystem soll zusätzlich dabei helfen, Bilder aus GPT-4o zu identifizieren.
OpenAI will weniger stark kontrollieren
Anfragen für problematische Inhalte wie Deepfakes oder Gewaltdarstellungen werden blockiert. Bei der Darstellung realer Personen gelten besonders strenge Regeln. Insgesamt aber soll das Bildmodell mehr kreativen Freiraum bieten als das sehr restriktive DALL-E 3 und laut OpenAI CEO Sam Altman "innerhalb eines gesunden Menschenverstands" auch potenziell anstößige Inhalte zulassen.
Vor kurzem hatte bereits Google eine ähnliche Funktion für sein Gemini-Modell veröffentlicht. Google betonte dabei ähnliche Vorteile wie Konsistenz über mehrere Bilder hinweg, konversationelle Bearbeitung und präzise Textdarstellung
Für die bekannten Bildgeneratoren wie Midjourney oder Ideogram gibt es auf jeden Fall noch einige Hausaufgaben zu erledigen. Sie bieten zwar eine überlegene, auf die Bildgenerierung ausgerichtete Benutzeroberfläche. Sie erreichen aber nicht die Genauigkeit nativer multimodaler Modelle. Letzteres dürfte für die Bildkreation aber häufig entscheidender sein.