Ein Discord-Leaker behauptet, Zugang zu einem neuen KI-Bildmodell von OpenAI zu haben. Es zeige deutliche Fortschritte, insbesondere bei der Schriftgenerierung und der Übereinstimmung mit Prompts.
Der Leaker meldete sich erstmals im Mai in einem Discord-Channel und behauptete, Teil eines Alpha-Tests eines neuen KI-Bildmodells von OpenAI zu sein. Schon damals zeigte er eigens für den Channel generierte Bilder, die angeblich aus dem neuen Bildmodell stammten.
Mitte Juli tauchte er erneut auf und zeigte weitere Beispiele, die er nach eigenen Angaben mit einer "Closed Alpha"-Testversion erstellt hatte, die derzeit etwa 400 Personen zugänglich ist.
Der Leaker wurde per E-Mail eingeladen und war nach eigenen Angaben zuvor an Tests von DALL-E und DALL-E 2 beteiligt. Die Testversion des neuen Bildmodells ist nach Angaben des Leakers unzensiert und kann daher Gewalt- und Nacktszenen oder urheberrechtlich geschütztes Material wie Firmenlogos enthalten.
Die Bilder zeigen die für DALL-E typische Markierung unten rechts, die jedoch leicht gefälscht sein könnte. In jedem Fall übertreffen die Generierungen die derzeitigen Fähigkeiten von Modellen wie Midjourney und SD XL in Bezug auf Details und Schriften.
Nach Angaben des Testers übertreffen die Ergebnisse auch Google Parti "deutlich", das wiederum bei der Vorstellung vor rund einem Jahr schon weit vor DALL-E 2 lag. Für den Vergleich hat der Leaker Prompts aus dem Parti-Paper getestet. Bei fotorealistischen Bildern soll Midjourney noch besser sein.
Bessere Schrift und Prompt-Präzision
Die Demonstrationen des Leakers zeigen, dass das potenzielle DALL-E-3-Modell deutlich besser mit Schrift umgehen kann, wenn man etwa einen Satz in den Prompt einbaut, der als Satz auf dem Bild erscheinen soll, wie das folgende Beispiel zeigt.
Zwar schleichen sich immer noch Fehler in die Wörter ein, aber insgesamt zeigt das neue Modell ein besseres Sprachverständnis.
Das trägt dazu bei, dass das neue Modell auch komplexe Bildkompositionen mit vielen abstrakten Details präzise umsetzen kann, wie die folgende Käsetier-Szene oder der gechillte Wombat auf dem Strandstuhl zeigen.
Das Beispiel mit den Käsetieren ist besonders eindrucksvoll, da hier bei vielen Modellen ein sogenannter Concept Spillover auftritt, d.h. das Bildmodell vermischt verschiedene inhaltliche Konzepte. Beim möglichen DALL-E 3 sind die Konzepte Käsetier und reales Tier klar getrennt.
Das folgende Midjourney-Beispiel mit dem gleichen Prompt zeigt den Concept Spillover. Hier ist einerseits der Käse nicht zum Tier geworden, andererseits hat ein Hund Kuhhörner (aus Käse?) auf.
DALL-E 2 hingegen ist auf ein Konzept festgelegt: Es setzt ganz auf Käse und ignoriert den Hund aus Fleisch und Blut völlig.
Einige weitere mögliche DALL-E-3-Beispielbilder gibt es in diesem Discord-Channel, wenn ihr nach dem Nutzer "Kaamalauppias" sucht.
OpenAI bastelt an Next-Gen-Bild-KI mit Architektur-Innovation
DALL-E 2 wurde nach seiner Markteinführung schnell von Midjourney und Stable Diffusion überholt und ging dann im Trubel um ChatGPT und GPT-4 unter. Das bedeutet natürlich nicht, dass OpenAI die Entwicklung an der Bild-KI eingestellt hat.
Ein erstes Anzeichen dafür war der Rollout des Bing Image Creators, der laut Microsoft eine "bessere Version" von DALL-E 2 verwendet. Details sind nicht bekannt und die Ergebnisse des Image Creators sind nicht auf dem Niveau von Midjourney oder Stable Diffusion XL.
Seit der Einführung von DALL-E 2 hat sich im Bereich der Bildmodelle insgesamt viel getan und Firmen wie Meta haben neue Architekturen vorgestellt, die Bilder und Schriften effizienter und mit höherer Genauigkeit erzeugen können.
Insbesondere das neueste Bildmodell CM3leon von Meta scheint, zumindest anhand der ausgewählten Beispiele, einen ähnlichen Detailgrad passend zum Prompt zu bieten wie die oben gezeigten möglichen DALL-E 3-Generierungen. Zudem wurde CM3leon ausschließlich auf lizenziertem Material trainiert.
Google hat Anfang des Jahres mit Muse ein schnelles KI-Bildmodell vorgestellt, das ebenfalls Eingaben in Prompts präziser als bisherige Modelle folgen und auch Schrift generieren kann.
Auch das OpenAI-Forschungsteam zeigte im April eine neue Architektur, sogenannte "Consistency Models", die bei hoher Qualität deutlich schneller generieren als klassische Diffusionsmodelle wie DALL-E 2 - eine mögliche Vorbereitung für die Videogenerierung?
Signifikanter Fortschritt bei KI-Bildmodellen ist also schon da, hat es aber noch nicht in ein Produkt geschafft. DALL-E-3 könnte das demnächst ändern.