DALL-E 4 könnte sehr viel besser als DALL-E 3 werden
Greg Brockman, Mitbegründer von OpenAI, teilte auf X ein von GPT-4o erzeugtes Bild, das das Potenzial der Bildgenerierungsfunktionen des Modells veranschaulicht.
Das Bild sieht fotorealistisch aus, und die handschriftliche Beschriftung der Tafel ist grammatikalisch korrekt und sinnvoll. Brockman zeigt den Prompt nicht, aber die Tafelbeschriftung dürfte im Prompt gestanden haben.
Insbesondere Ideogram zeigt, dass eine korrekte Textdarstellung mit Bildmodellen möglich ist, wenn auch bisher nicht in der Komplexität, wie sie Brockman im Bild zeigt. DALL-E 3 oder Midjourney beherrschen die Textdarstellung mehr schlecht als recht.

Dass GPT-4o diese Bild-Fähigkeit auf hohem Niveau beherrscht, liegt daran, dass es von Grund auf multimodal trainiert wurde - im Gegensatz zu GPT-4 mit DALL-E 3, das ein mit einem Bildmodell vernetztes Sprachmodell ist.
GPT-4o bietet noch eine Reihe weiterer multimodaler Fähigkeiten. Das Modell kann Text, Audio, Bild und Video als Eingabe akzeptieren und Text, Audio und Bild als Ausgabe erzeugen, und zwar in jeder beliebigen Kombination. Auf diese Weise können visuelle Geschichten, detaillierte und konsistente Charakterdesigns, kreative Typografie und sogar 3D-Renderings erzeugt werden.

GPT-4o ist derzeit kostenlos in ChatGPT als Text- und Codemodell verfügbar. Die multimodalen Fähigkeiten wie Audio und Bild werden in den kommenden Monaten schrittweise eingeführt. Die einzelnen Funktionen durchlaufen noch Red-Teaming und weitere Sicherheitstests. Ob OpenAI die Zusatzfunktionen wie bei DALL-E unter eigener Marke oder einfach als Funktion von GPT-4o veröffentlichen wird, ist bisher nicht bekannt.
Influencer-Verwirrung um die Sprachausgabe von GPT-4o
Eine kleine Anekdote: OpenAI kommunizierte GPT-4o bei der Vorstellung so ungeschickt, dass viele glaubten, die neue Audiofunktionalität sei in ChatGPT bereits verfügbar und nicht nur das Textmodell. OpenAI CEO Sam Altman musste diesen weit verbreiteten Irrtum nachträglich bei X aufklären.
Gut für OpenAI: Zahlreiche Nutzer entdeckten erstmals die seit Monaten verfügbare ChatGPT-Audiofunktion und veröffentlichten begeisterte Demonstrationen des "nächsten großen KI-Dings" in sozialen Medien. Hier überholte der KI-Fortschritt seine Influencer.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.
Jetzt abonnierenKI-News ohne Hype
Von Menschen kuratiert.
- Mehr als 20 Prozent Launch-Rabatt.
- Lesen ohne Ablenkung – keine Google-Werbebanner.
- Zugang zum Kommentarsystem und Austausch mit der Community.
- Wöchentlicher KI-Newsletter.
- 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
- Bis zu 25 % Rabatt auf KI Pro Online-Events.
- Zugang zum kompletten Archiv der letzten zehn Jahre.
- Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.