Inhalt
summary Zusammenfassung

Ein Discord-Leaker behauptet, Zugang zu einem neuen KI-Bildmodell von OpenAI zu haben. Es zeige deutliche Fortschritte, insbesondere bei der Schriftgenerierung und der Übereinstimmung mit Prompts.

Der Leaker meldete sich erstmals im Mai in einem Discord-Channel und behauptete, Teil eines Alpha-Tests eines neuen KI-Bildmodells von OpenAI zu sein. Schon damals zeigte er eigens für den Channel generierte Bilder, die angeblich aus dem neuen Bildmodell stammten.

Mitte Juli tauchte er erneut auf und zeigte weitere Beispiele, die er nach eigenen Angaben mit einer "Closed Alpha"-Testversion erstellt hatte, die derzeit etwa 400 Personen zugänglich ist.

Der Leaker wurde per E-Mail eingeladen und war nach eigenen Angaben zuvor an Tests von DALL-E und DALL-E 2 beteiligt. Die Testversion des neuen Bildmodells ist nach Angaben des Leakers unzensiert und kann daher Gewalt- und Nacktszenen oder urheberrechtlich geschütztes Material wie Firmenlogos enthalten.

Anzeige
Anzeige
Die Sandwichfirma Subway wäre über diese Generierung wohl nicht erfreut, und so viel Blut und Religion dürfte OpenAI im finalen DALL-E eher zensieren. | Bild: Kaamalauppias, Discord

Die Bilder zeigen die für DALL-E typische Markierung unten rechts, die jedoch leicht gefälscht sein könnte. In jedem Fall übertreffen die Generierungen die derzeitigen Fähigkeiten von Modellen wie Midjourney und SD XL in Bezug auf Details und Schriften.

Nach Angaben des Testers übertreffen die Ergebnisse auch Google Parti "deutlich", das wiederum bei der Vorstellung vor rund einem Jahr schon weit vor DALL-E 2 lag. Für den Vergleich hat der Leaker Prompts aus dem Parti-Paper getestet. Bei fotorealistischen Bildern soll Midjourney noch besser sein.

Bessere Schrift und Prompt-Präzision

Die Demonstrationen des Leakers zeigen, dass das potenzielle DALL-E-3-Modell deutlich besser mit Schrift umgehen kann, wenn man etwa einen Satz in den Prompt einbaut, der als Satz auf dem Bild erscheinen soll, wie das folgende Beispiel zeigt.

"an image of an angel holding the sun and moon. above the angel, it says, "BE NOT AFRIAD" in the background is the entire universe. fantasy art, 8k reoslution, beautiful, emotional." | Bild: via Discord

Zwar schleichen sich immer noch Fehler in die Wörter ein, aber insgesamt zeigt das neue Modell ein besseres Sprachverständnis.

Das trägt dazu bei, dass das neue Modell auch komplexe Bildkompositionen mit vielen abstrakten Details präzise umsetzen kann, wie die folgende Käsetier-Szene oder der gechillte Wombat auf dem Strandstuhl zeigen.

Empfehlung
Entspannter Wombat: "A wombat sits in a yellow beach chair, while sipping a martini that is on his laptop keyboard. The wombat is wearing a white panama hat and a floral Hawaiian shirt. Out-of-focus palm trees in the background. dslr photograph. wide-angle view." | Bild: via Discord

Das Beispiel mit den Käsetieren ist besonders eindrucksvoll, da hier bei vielen Modellen ein sogenannter Concept Spillover auftritt, d.h. das Bildmodell vermischt verschiedene inhaltliche Konzepte. Beim möglichen DALL-E 3 sind die Konzepte Käsetier und reales Tier klar getrennt.

Praktisch, ein Käsetier ist direkt mit Schinken gefüllt. Prompt: "A group of farm animals (cows, sheep, and pigs) made out of cheese and ham, on a wooden board. There is a dog in the background eyeing the board hungrily." | Bild: via Discord

Das folgende Midjourney-Beispiel mit dem gleichen Prompt zeigt den Concept Spillover. Hier ist einerseits der Käse nicht zum Tier geworden, andererseits hat ein Hund Kuhhörner (aus Käse?) auf.

Bild: Midjourney prompted by THE DECODER

DALL-E 2 hingegen ist auf ein Konzept festgelegt: Es setzt ganz auf Käse und ignoriert den Hund aus Fleisch und Blut völlig.

Bild: DALL-E 2 prompted by THE DECODER

Einige weitere mögliche DALL-E-3-Beispielbilder gibt es in diesem Discord-Channel, wenn ihr nach dem Nutzer "Kaamalauppias" sucht.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

OpenAI bastelt an Next-Gen-Bild-KI mit Architektur-Innovation

DALL-E 2 wurde nach seiner Markteinführung schnell von Midjourney und Stable Diffusion überholt und ging dann im Trubel um ChatGPT und GPT-4 unter. Das bedeutet natürlich nicht, dass OpenAI die Entwicklung an der Bild-KI eingestellt hat.

Ein erstes Anzeichen dafür war der Rollout des Bing Image Creators, der laut Microsoft eine "bessere Version" von DALL-E 2 verwendet. Details sind nicht bekannt und die Ergebnisse des Image Creators sind nicht auf dem Niveau von Midjourney oder Stable Diffusion XL.

Seit der Einführung von DALL-E 2 hat sich im Bereich der Bildmodelle insgesamt viel getan und Firmen wie Meta haben neue Architekturen vorgestellt, die Bilder und Schriften effizienter und mit höherer Genauigkeit erzeugen können.

Insbesondere das neueste Bildmodell CM3leon von Meta scheint, zumindest anhand der ausgewählten Beispiele, einen ähnlichen Detailgrad passend zum Prompt zu bieten wie die oben gezeigten möglichen DALL-E 3-Generierungen. Zudem wurde CM3leon ausschließlich auf lizenziertem Material trainiert.

Google hat Anfang des Jahres mit Muse ein schnelles KI-Bildmodell vorgestellt, das ebenfalls Eingaben in Prompts präziser als bisherige Modelle folgen und auch Schrift generieren kann.

Auch das OpenAI-Forschungsteam zeigte im April eine neue Architektur, sogenannte "Consistency Models", die bei hoher Qualität deutlich schneller generieren als klassische Diffusionsmodelle wie DALL-E 2 - eine mögliche Vorbereitung für die Videogenerierung?

Signifikanter Fortschritt bei KI-Bildmodellen ist also schon da, hat es aber noch nicht in ein Produkt geschafft. DALL-E-3 könnte das demnächst ändern.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Ein Leak zeigt Bilder, die angeblich mit einem neuen Bildmodell von OpenAI generiert wurden - möglicherweise eine frühe Version von DALL-E 3.
  • Die Bilder folgen deutlich genauer den Angaben in den Prompts. Außerdem kann das neue Modell Schriften nahezu fehlerfrei generieren und in das Bild integrieren.
  • Nach Angaben des Leakers befindet sich das noch unzensierte Modell derzeit in einer geschlossenen Alpha-Phase mit rund 400 Testpersonen. Ob und wann eine Markteinführung erfolgt, ist nicht bekannt.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!