Inhalt
summary Zusammenfassung

OpenAI veröffentlicht ein Paper über die neue Bild-KI DALL-E 3, das erklärt, warum die neue Bild-KI Prompts viel genauer befolgt als vergleichbare Systeme.

Anzeige

Im Zuge des vollständigen Rollouts von DALL-E 3 veröffentlicht OpenAI ein Paper über DALL-E 3: Es beschäftigt sich mit der Frage, warum DALL-E 3 den Prompts im Vergleich zu bestehenden Systemen so genau folgen kann. Die Antwort ist bereits im Titel des Papers enthalten: "Optimierung der Bilderzeugung durch bessere Bildbeschriftung".

Vor dem eigentlichen Training von DALL-E 3 hat OpenAI einen eigenen KI-Bildbeschrifter trainiert, mit dem dann der Bilddatensatz für das Training des eigentlichen Bildsystems DALL-E 3 neu beschriftet wurde. Bei der Neubeschriftung legte OpenAI Wert auf besonders detaillierte Beschreibungen.

Vor dem Training von DALL-E 3 trainierte OpenAI probeweise drei Bildmodelle mit drei Annotationstypen: menschlich, kurz synthetisch und detailliert synthetisch.

Anzeige
Anzeige
Das Bild zeigt oben die menschliche Beschriftung, darunter eine kurze synthetische Bildgenerierung und ganz unten die generierten detaillierten Beschriftungen, wie sie für die Trainingsbilder von DALL-E 3 generiert wurden.
Das Bild zeigt oben die menschliche Beschriftung, darunter eine kurze synthetische Bildgenerierung und ganz unten die generierten detaillierten Beschriftungen, wie sie für die Trainingsbilder von DALL-E 3 generiert wurden. | Bild: OpenAI

Bereits die kurzen synthetischen Annotationen übertrafen in Benchmarks die menschlichen Annotationen deutlich. Die langen deskriptiven Annotationen erreichten noch höhere Werte.

CLIP-Bewertungen für Text-Bild-Modelle, die auf verschiedene Beschriftungstypen trainiert wurden. | Bild: OpenAI
CLIP-Bewertungen für Text-Bild-Modelle, die auf verschiedene Beschriftungstypen trainiert wurden. | Bild: OpenAI

OpenAI experimentierte auch mit einer Mischung aus verschiedenen synthetischen und menschlichen Annotationsstilen. Je höher jedoch der Anteil der maschinellen Annotation war, desto besser war auch die Bildgenerierung. So enthält DALL-E 3 95 Prozent maschinelle Annotationen und 5 Prozent menschliche Annotationen.

Prompt-Genauigkeit: DALL-E 3 im Vergleich mit Midjourney 5.2 und Stable Diffusion XL

OpenAI testete die Prompt-Genauigkeit von DALL-E 3 in synthetischen Benchmarks und in Tests mit Menschen. In allen synthetischen Benchmarks liegt DALL-E 3 vor seinem Vorgänger DALL-E 2 und Stable Diffusion XL, meist mit deutlichem Abstand.

Synthetische Benchmarks. | Bild: OpenAI

Relevanter ist die menschliche Einschätzung in den Dimensionen Promptgenauigkeit, Stil und Glaubwürdigkeit. Insbesondere beim Prompt-Following fällt das Ergebnis deutlich zugunsten von DALL-E 3 im Vergleich zu Midjourney aus.

Bewertung durch Menschen. | Bild: OpenAI

Aber auch bei Stil und Kohärenz schneidet die neue Bild-KI von OpenAI signifikant besser ab als Midjourney 5.2. Noch deutlicher fällt die Open-Source-KI Stable Diffusion XL ab. DALL-E 3 hat laut OpenAI noch Probleme bei der Lokalisierung von Objekten im Raum (links neben, rechts neben, hinter etc.).

Empfehlung

In einer Fußnote weist OpenAI darauf hin, dass die Neuerung bei der Bildbeschriftung nur ein Teil der Neuerungen von DALL-E 3 sei, das "viele Verbesserungen" gegenüber DALL-E 2 aufweise. Der deutliche Vorsprung von DALL-E 3 gegenüber konkurrierenden Systemen sei daher nicht allein auf die synthetische Bildbeschriftung zurückzuführen. Auf weitere Verbesserungen von DALL-E 3 geht OpenAI in dem Papier nicht ein.

Midjourney und Co. sollte man noch nicht abschreiben

Als intensiver Nutzer von Midjourney bin ich begeistert von der Fähigkeit von DALL-E 3, meine Bildbefehle relativ genau zu befolgen. Für THE DECODER verwenden wir viele KI-generierte Illustrationen. Je genauer sie den Inhalt des Artikels wiedergeben, desto besser. Deshalb bin ich derzeit weitgehend auf DALL-E 3 umgestiegen.

Hinsichtlich der Bildqualität sehe ich jedoch Midjourney immer noch vorne. DALL-E 3 neigt gelegentlich zu einem generischen Stockfoto-Look. Vor allem bei fotorealistischen Szenen hat DALL-E 3 das Nachsehen, so sehen zum Beispiel Menschen künstlich aus. Außerdem bietet mir Midjourney inhaltlich und technisch viel mehr kreativen Spielraum beim Prompting.

Midjourney will mit v6 auch die Promptgenauigkeit verbessern und könnte damit wieder Boden auf DALL-E 3 gut machen. Auch DALL-E 2 von OpenAI setzte zunächst neue Maßstäbe, wurde dann aber schnell vom Markt überholt.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • OpenAI veröffentlicht ein Paper über die Bild-KI DALL-E 3, in dem es zeigt, wie das System durch die Verwendung besserer Bildbeschriftungen Bildbefehle genauer als andere Systeme befolgt.
  • OpenAI trainierte zunächst einen eigenen KI-Bildbeschrifter und verwendete dann detaillierte künstliche Beschreibungen für den Bilddatensatz, mit dem DALL-E 3 trainiert wurde.
  • DALL-E 3 übertrifft seinen Vorgänger DALL-E 2 und andere konkurrierende Systeme in synthetischen Benchmarks und menschlichen Beurteilungen, insbesondere in Prompt-Genauigkeit, Stil und Kohärenz.
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!