Inhalt
summary Zusammenfassung

OpenAI hat endlich seine vor rund einem Jahr vorgestellte native Bildgenerierung für ChatGPT ausgerollt. Erste Ergebnisse machen Lust auf mehr.

Anzeige

Laut dem Unternehmen wird die im Mai 2024 zusammen mit GPT4o vorgestellte Bildgenerierungsfunktion der neue Standard-Bildgenerator für alle ChatGPT-Nutzergruppen - von Free bis Enterprise. Entwickler müssen sich noch etwas gedulden - der API-Zugang soll in den kommenden Wochen folgen. DALL-E bleibt als separate Option über einen speziellen GPT verfügbar.

Mehr KI-Bild-Präzision durch Multimodalität

Die native Integration der Bildgenerierung in das Sprachmodell soll präzisere und konsistentere Ergebnisse ermöglichen. Das System kann nach Angaben von OpenAI bis zu 20 verschiedene Objekte gleichzeitig verarbeiten und deren Beziehungen zueinander korrekt darstellen.

Das Pferd reitet auf dem Astronauten. Bisherige Bildmodelle können diese Aufgabe nicht lösen, stattdessen reitet der Astronaut auf dem Pferd - das ist alltäglicher. GPT-4o scheint hier einen neuen kreativen Freiraum zu schaffen. | Bild: GPT-4o prompted by THE DECODER

Eine besondere Stärke des Systems liegt in der präzisen Textwiedergabe innerhalb generierter Bilder, was etwa Infografiken ermöglichen soll oder Logos.

Anzeige
Anzeige

OpenAI betont, dass GPT-4o durch sein breites Weltwissen auch komplexe Zusammenhänge visuell darstellen kann. Eine weitere Fähigkeit sei das "In-Kontext-Lernen", bei dem GPT-4o vom Nutzer hochgeladene Bilder analysieren und deren Details in neue Bildgenerierungen einfließen lässt.

Die Bildgenerierung lässt sich über natürliche Gespräche steuern und verfeinern. Nutzer können Bilder schrittweise anpassen, wobei das System den Kontext über mehrere Dialogrunden hinweg behält.

Erste Tests zeigen, dass die Bildkonsistenz viel höher ist als zuvor bei DALL-E 3, aber nicht perfekt. So können sich an Charakteren etwa Details verändern, etwa ein leicht veränderter Haarwuchs.

Laut OpenAI sind die Einschränkungen gelegentliches falsches Zuschneiden von Bildern, mögliche Halluzinationen (ähnlich wie bei Textmodellen), Schwierigkeiten bei der Darstellung sehr vieler distinkter Konzepte gleichzeitig und ungenaue Darstellung von Text in nicht-lateinischen Schriften. Die Präzision bei der Bearbeitung spezifischer Bildteile sei ebenfalls bisher nicht optimal und werde verbessert.

OpenAI stattet alle generierten Bilder mit C2PA-Metadaten aus, die ihre KI-Herkunft kennzeichnen. Ein internes Suchsystem soll zusätzlich dabei helfen, Bilder aus GPT-4o zu identifizieren.

Empfehlung

OpenAI will weniger stark kontrollieren

Anfragen für problematische Inhalte wie Deepfakes oder Gewaltdarstellungen werden blockiert. Bei der Darstellung realer Personen gelten besonders strenge Regeln. Insgesamt aber soll das Bildmodell mehr kreativen Freiraum bieten als das sehr restriktive DALL-E 3 und laut OpenAI CEO Sam Altman "innerhalb eines gesunden Menschenverstands" auch potenziell anstößige Inhalte zulassen.

Vor kurzem hatte bereits Google eine ähnliche Funktion für sein Gemini-Modell veröffentlicht. Google betonte dabei ähnliche Vorteile wie Konsistenz über mehrere Bilder hinweg, konversationelle Bearbeitung und präzise Textdarstellung

Für die bekannten Bildgeneratoren wie Midjourney oder Ideogram gibt es auf jeden Fall noch einige Hausaufgaben zu erledigen. Sie bieten zwar eine überlegene, auf die Bildgenerierung ausgerichtete Benutzeroberfläche. Sie erreichen aber nicht die Genauigkeit nativer multimodaler Modelle. Letzteres dürfte für die Bildkreation aber häufig entscheidender sein.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI rollt die bereits angekündigte native Bildgenerierung für ChatGPT aus: Sie ist jetzt Standard für alle Nutzergruppen und verspricht präzisere Ergebnisse als das vorherige DALL-E.
  • Das neue Modell GPT-4o verarbeitet bis zu 20 Objekte gleichzeitig, stellt deren Beziehungen besser dar und erzeugt besonders genaue Texte innerhalb der Bilder.
  • Um Missbrauch vorzubeugen, sind generierte Inhalte per Metadaten gekennzeichnet, problematische Anfragen blockiert das System automatisch. Es soll aber mehr Freiheiten bieten als DALL-E 3.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!