OpenAI DALL-E 3: Leaker zeigt mögliche erste Bild-Generierungen

28. Juli 2023

"Kaamalauppias" via Discord

Ein Discord-Leaker behauptet, Zugang zu einem neuen KI-Bildmodell von OpenAI zu haben. Es zeige deutliche Fortschritte, insbesondere bei der Schriftgenerierung und der Übereinstimmung mit Prompts.

Der Leaker meldete sich erstmals im Mai in einem Discord-Channel und behauptete, Teil eines Alpha-Tests eines neuen KI-Bildmodells von OpenAI zu sein. Schon damals zeigte er eigens für den Channel generierte Bilder, die angeblich aus dem neuen Bildmodell stammten.

Mitte Juli tauchte er erneut auf und zeigte weitere Beispiele, die er nach eigenen Angaben mit einer "Closed Alpha"-Testversion erstellt hatte, die derzeit etwa 400 Personen zugänglich ist.

Der Leaker wurde per E-Mail eingeladen und war nach eigenen Angaben zuvor an Tests von DALL-E und DALL-E 2 beteiligt. Die Testversion des neuen Bildmodells ist nach Angaben des Leakers unzensiert und kann daher Gewalt- und Nacktszenen oder urheberrechtlich geschütztes Material wie Firmenlogos enthalten.

Die Sandwichfirma Subway wäre über diese Generierung wohl nicht erfreut, und so viel Blut und Religion dürfte OpenAI im finalen DALL-E eher zensieren. | Bild: Kaamalauppias, Discord

Die Bilder zeigen die für DALL-E typische Markierung unten rechts, die jedoch leicht gefälscht sein könnte. In jedem Fall übertreffen die Generierungen die derzeitigen Fähigkeiten von Modellen wie Midjourney und SD XL in Bezug auf Details und Schriften.

Nach Angaben des Testers übertreffen die Ergebnisse auch Google Parti "deutlich", das wiederum bei der Vorstellung vor rund einem Jahr schon weit vor DALL-E 2 lag. Für den Vergleich hat der Leaker Prompts aus dem Parti-Paper getestet. Bei fotorealistischen Bildern soll Midjourney noch besser sein.

Bessere Schrift und Prompt-Präzision

Die Demonstrationen des Leakers zeigen, dass das potenzielle DALL-E-3-Modell deutlich besser mit Schrift umgehen kann, wenn man etwa einen Satz in den Prompt einbaut, der als Satz auf dem Bild erscheinen soll, wie das folgende Beispiel zeigt.

"an image of an angel holding the sun and moon. above the angel, it says, "BE NOT AFRIAD" in the background is the entire universe. fantasy art, 8k reoslution, beautiful, emotional." | Bild: via Discord

Zwar schleichen sich immer noch Fehler in die Wörter ein, aber insgesamt zeigt das neue Modell ein besseres Sprachverständnis.

Das trägt dazu bei, dass das neue Modell auch komplexe Bildkompositionen mit vielen abstrakten Details präzise umsetzen kann, wie die folgende Käsetier-Szene oder der gechillte Wombat auf dem Strandstuhl zeigen.

Entspannter Wombat: "A wombat sits in a yellow beach chair, while sipping a martini that is on his laptop keyboard. The wombat is wearing a white panama hat and a floral Hawaiian shirt. Out-of-focus palm trees in the background. dslr photograph. wide-angle view." | Bild: via Discord

Das Beispiel mit den Käsetieren ist besonders eindrucksvoll, da hier bei vielen Modellen ein sogenannter Concept Spillover auftritt, d.h. das Bildmodell vermischt verschiedene inhaltliche Konzepte. Beim möglichen DALL-E 3 sind die Konzepte Käsetier und reales Tier klar getrennt.

Praktisch, ein Käsetier ist direkt mit Schinken gefüllt. Prompt: "A group of farm animals (cows, sheep, and pigs) made out of cheese and ham, on a wooden board. There is a dog in the background eyeing the board hungrily." | Bild: via Discord

Das folgende Midjourney-Beispiel mit dem gleichen Prompt zeigt den Concept Spillover. Hier ist einerseits der Käse nicht zum Tier geworden, andererseits hat ein Hund Kuhhörner (aus Käse?) auf.

Bild: Midjourney prompted by THE DECODER

DALL-E 2 hingegen ist auf ein Konzept festgelegt: Es setzt ganz auf Käse und ignoriert den Hund aus Fleisch und Blut völlig.

Einige weitere mögliche DALL-E-3-Beispielbilder gibt es in diesem Discord-Channel, wenn ihr nach dem Nutzer "Kaamalauppias" sucht.

OpenAI bastelt an Next-Gen-Bild-KI mit Architektur-Innovation

DALL-E 2 wurde nach seiner Markteinführung schnell von Midjourney und Stable Diffusion überholt und ging dann im Trubel um ChatGPT und GPT-4 unter. Das bedeutet natürlich nicht, dass OpenAI die Entwicklung an der Bild-KI eingestellt hat.

Ein erstes Anzeichen dafür war der Rollout des Bing Image Creators, der laut Microsoft eine "bessere Version" von DALL-E 2 verwendet. Details sind nicht bekannt und die Ergebnisse des Image Creators sind nicht auf dem Niveau von Midjourney oder Stable Diffusion XL.

Seit der Einführung von DALL-E 2 hat sich im Bereich der Bildmodelle insgesamt viel getan und Firmen wie Meta haben neue Architekturen vorgestellt, die Bilder und Schriften effizienter und mit höherer Genauigkeit erzeugen können.

Insbesondere das neueste Bildmodell CM3leon von Meta scheint, zumindest anhand der ausgewählten Beispiele, einen ähnlichen Detailgrad passend zum Prompt zu bieten wie die oben gezeigten möglichen DALL-E 3-Generierungen. Zudem wurde CM3leon ausschließlich auf lizenziertem Material trainiert.

Google hat Anfang des Jahres mit Muse ein schnelles KI-Bildmodell vorgestellt, das ebenfalls Eingaben in Prompts präziser als bisherige Modelle folgen und auch Schrift generieren kann.

Auch das OpenAI-Forschungsteam zeigte im April eine neue Architektur, sogenannte "Consistency Models", die bei hoher Qualität deutlich schneller generieren als klassische Diffusionsmodelle wie DALL-E 2 - eine mögliche Vorbereitung für die Videogenerierung?

Signifikanter Fortschritt bei KI-Bildmodellen ist also schon da, hat es aber noch nicht in ein Produkt geschafft. DALL-E-3 könnte das demnächst ändern.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

OpenAI DALL-E 3: Leaker zeigt mögliche erste Bild-Generierungen

Bessere Schrift und Prompt-Präzision

OpenAI bastelt an Next-Gen-Bild-KI mit Architektur-Innovation

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.