DALL-E 4 könnte sehr viel besser als DALL-E 3 werden

18. Mai 2024

Greg Brockman via X

Greg Brockman, Mitbegründer von OpenAI, teilte auf X ein von GPT-4o erzeugtes Bild, das das Potenzial der Bildgenerierungsfunktionen des Modells veranschaulicht.

Das Bild sieht fotorealistisch aus, und die handschriftliche Beschriftung der Tafel ist grammatikalisch korrekt und sinnvoll. Brockman zeigt den Prompt nicht, aber die Tafelbeschriftung dürfte im Prompt gestanden haben.

Insbesondere Ideogram zeigt, dass eine korrekte Textdarstellung mit Bildmodellen möglich ist, wenn auch bisher nicht in der Komplexität, wie sie Brockman im Bild zeigt. DALL-E 3 oder Midjourney beherrschen die Textdarstellung mehr schlecht als recht.

Ein Mann steht mit dem Rücken zur Kamera vor einer grünen Tafel und beschriftet diese mit Informationen zu einem KI-Modell. — Der Bildeindruck ist fotorealistisch und das auf der Rückseite des T-Shirts befindliche OpenAI-Logo und der als Handschrift gerenderte Tafeltext werden korrekt dargestellt. Das geht deutlich über die Möglichkeiten bestehender Bildmodelle hinaus. | Bild: Greg Brockman via X

Dass GPT-4o diese Bild-Fähigkeit auf hohem Niveau beherrscht, liegt daran, dass es von Grund auf multimodal trainiert wurde - im Gegensatz zu GPT-4 mit DALL-E 3, das ein mit einem Bildmodell vernetztes Sprachmodell ist.

GPT-4o bietet noch eine Reihe weiterer multimodaler Fähigkeiten. Das Modell kann Text, Audio, Bild und Video als Eingabe akzeptieren und Text, Audio und Bild als Ausgabe erzeugen, und zwar in jeder beliebigen Kombination. Auf diese Weise können visuelle Geschichten, detaillierte und konsistente Charakterdesigns, kreative Typografie und sogar 3D-Renderings erzeugt werden.

GPT-4o beherrscht Bild- und Textgenerierung im Zusammenspiel. | Bild: OpenAI

GPT-4o ist derzeit kostenlos in ChatGPT als Text- und Codemodell verfügbar. Die multimodalen Fähigkeiten wie Audio und Bild werden in den kommenden Monaten schrittweise eingeführt. Die einzelnen Funktionen durchlaufen noch Red-Teaming und weitere Sicherheitstests. Ob OpenAI die Zusatzfunktionen wie bei DALL-E unter eigener Marke oder einfach als Funktion von GPT-4o veröffentlichen wird, ist bisher nicht bekannt.

Influencer-Verwirrung um die Sprachausgabe von GPT-4o

Eine kleine Anekdote: OpenAI kommunizierte GPT-4o bei der Vorstellung so ungeschickt, dass viele glaubten, die neue Audiofunktionalität sei in ChatGPT bereits verfügbar und nicht nur das Textmodell. OpenAI CEO Sam Altman musste diesen weit verbreiteten Irrtum nachträglich bei X aufklären.

Gut für OpenAI: Zahlreiche Nutzer entdeckten erstmals die seit Monaten verfügbare ChatGPT-Audiofunktion und veröffentlichten begeisterte Demonstrationen des "nächsten großen KI-Dings" in sozialen Medien. Hier überholte der KI-Fortschritt seine Influencer.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

KI-News ohne Hype
Von Menschen kuratiert.

Mehr als 20 Prozent Launch-Rabatt.
Lesen ohne Ablenkung – keine Google-Werbebanner.
Zugang zum Kommentarsystem und Austausch mit der Community.
Wöchentlicher KI-Newsletter.
6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
Bis zu 25 % Rabatt auf KI Pro Online-Events.
Zugang zum kompletten Archiv der letzten zehn Jahre.
Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

DALL-E 4 könnte sehr viel besser als DALL-E 3 werden

Influencer-Verwirrung um die Sprachausgabe von GPT-4o

KI-News ohne Hype – von Menschen kuratiert

KI-News ohne HypeVon Menschen kuratiert.

KI-News ohne Hype
Von Menschen kuratiert.