DALL-E 4 könnte sehr viel besser als DALL-E 3 werden

Greg Brockman, Mitbegründer von OpenAI, teilte auf X ein von GPT-4o erzeugtes Bild, das das Potenzial der Bildgenerierungsfunktionen des Modells veranschaulicht.

Das Bild sieht fotorealistisch aus, und die handschriftliche Beschriftung der Tafel ist grammatikalisch korrekt und sinnvoll. Brockman zeigt den Prompt nicht, aber die Tafelbeschriftung dürfte im Prompt gestanden haben.

Insbesondere Ideogram zeigt, dass eine korrekte Textdarstellung mit Bildmodellen möglich ist, wenn auch bisher nicht in der Komplexität, wie sie Brockman im Bild zeigt. DALL-E 3 oder Midjourney beherrschen die Textdarstellung mehr schlecht als recht.

Ein Mann steht mit dem Rücken zur Kamera vor einer grünen Tafel und beschriftet diese mit Informationen zu einem KI-Modell. — Der Bildeindruck ist fotorealistisch und das auf der Rückseite des T-Shirts befindliche OpenAI-Logo und der als Handschrift gerenderte Tafeltext werden korrekt dargestellt. Das geht deutlich über die Möglichkeiten bestehender Bildmodelle hinaus. | Bild: Greg Brockman via X

Dass GPT-4o diese Bild-Fähigkeit auf hohem Niveau beherrscht, liegt daran, dass es von Grund auf multimodal trainiert wurde - im Gegensatz zu GPT-4 mit DALL-E 3, das ein mit einem Bildmodell vernetztes Sprachmodell ist.

GPT-4o bietet noch eine Reihe weiterer multimodaler Fähigkeiten. Das Modell kann Text, Audio, Bild und Video als Eingabe akzeptieren und Text, Audio und Bild als Ausgabe erzeugen, und zwar in jeder beliebigen Kombination. Auf diese Weise können visuelle Geschichten, detaillierte und konsistente Charakterdesigns, kreative Typografie und sogar 3D-Renderings erzeugt werden.

GPT-4o beherrscht Bild- und Textgenerierung im Zusammenspiel. | Bild: OpenAI

GPT-4o ist derzeit kostenlos in ChatGPT als Text- und Codemodell verfügbar. Die multimodalen Fähigkeiten wie Audio und Bild werden in den kommenden Monaten schrittweise eingeführt. Die einzelnen Funktionen durchlaufen noch Red-Teaming und weitere Sicherheitstests. Ob OpenAI die Zusatzfunktionen wie bei DALL-E unter eigener Marke oder einfach als Funktion von GPT-4o veröffentlichen wird, ist bisher nicht bekannt.

Influencer-Verwirrung um die Sprachausgabe von GPT-4o

Eine kleine Anekdote: OpenAI kommunizierte GPT-4o bei der Vorstellung so ungeschickt, dass viele glaubten, die neue Audiofunktionalität sei in ChatGPT bereits verfügbar und nicht nur das Textmodell. OpenAI CEO Sam Altman musste diesen weit verbreiteten Irrtum nachträglich bei X aufklären.

Gut für OpenAI: Zahlreiche Nutzer entdeckten erstmals die seit Monaten verfügbare ChatGPT-Audiofunktion und veröffentlichten begeisterte Demonstrationen des "nächsten großen KI-Dings" in sozialen Medien. Hier überholte der KI-Fortschritt seine Influencer.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

DALL-E 4 könnte sehr viel besser als DALL-E 3 werden

Influencer-Verwirrung um die Sprachausgabe von GPT-4o

OpenAI veröffentlicht ChatGPT-Update mit neuem GPT-4o-Modell

OpenAIs GPT-4o kann jetzt seine eigenen Antworten vorhersagen

ChatGPT Advanced Voice Mode jetzt in der EU verfügbar

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

DALL-E 4 könnte sehr viel besser als DALL-E 3 werden

Influencer-Verwirrung um die Sprachausgabe von GPT-4o

OpenAI veröffentlicht ChatGPT-Update mit neuem GPT-4o-Modell

OpenAIs GPT-4o kann jetzt seine eigenen Antworten vorhersagen

ChatGPT Advanced Voice Mode jetzt in der EU verfügbar