ByteDance bringt mit Seedream 3.0 ein neues Text-zu-Bild-Modell auf den Markt. Es soll schneller, präziser und ästhetisch ansprechender sein als bisherige Systeme – sogar besser als GPT-4o.
ByteDance hat mit Seedream 3.0 ein neues Text-zu-Bild-Modell veröffentlicht, das in internen und externen Benchmarks deutlich besser abschneidet als das Vorgängermodell Seedream 2.0 und die Qualität aktueller Konkurrenzprodukte wie GPT-4o, Midjourney v6.1 oder Imagen 3 erreicht oder übertrifft.
Das Modell wurde mit doppelt so vielen Trainingsdaten als der Vorgänger trainiert, darunter auch zuvor aussortierte Bilder, deren Defekte nun maskiert werden. Neue Trainingsmethoden – etwa Resolution-aware Sampling und Mixed-Resolution-Training – sollen die Ausgabegenauigkeit bei verschiedenen Bildgrößen verbessern. Es unterstützt native 2K-Auflösung und benötigt nur noch rund drei Sekunden für ein 1K-Bild.
Seedream 3.0 schlägt GPT-4o
In Benchmarks wie der Artificial Analysis Arena, bei dem User jeweils zwei Bilder verschiedener Modelle bewerten, belegte Seedream 3.0 zur Veröffentlichung des Papers den ersten Platz, mittlerweile liegt das Modell wieder hinter GPT-4o, allerdings nur mit einem Punkt (Arena ELO 1156 vs. 1157). Besonders fällt das Modell bei textlastigen Prompts auf: Es erreicht eine Textverfügbarkeitsrate von 94 Prozent in Englisch und Chinesisch, auch bei dichter Typografie.
Für diese Leistung wurden spezielle Trainingsdaten mit ästhetischen und stilistischen Beschreibungen eingesetzt. Die Ergebnisse übertreffen laut den Entwicklern nicht nur GPT-4o, sondern sogar grafische Designplattformen wie Canva. Diese Aussage bezieht sich vor allem auf die Qualität der Typografie und das Zusammenspiel von Text und Bild, etwa bei Postern oder Stickermotiven, die in den Evaluierungen als Benchmarks dienten.
Bei fotorealistischen Porträts liegt Seedream 3.0 im direkten Vergleich mit Midjourney v6.1 laut ByteDance ebenfalls vorn. Die Bilder sollen realistischere Hautstrukturen, feine Details wie Falten und Haare zeigen und so den typischen „glatten“ KI-Look vermeiden. Anders als viele Modelle benötigt Seedream 3.0 keine nachträgliche Hochskalierung, sondern erzeugt hochauflösende Porträts direkt.
SeedEdit soll Bilder besser editieren als die Konkurrenz
SeedEdit, ein Ableger von Seedream, ermöglicht Bild- und Textbearbeitung innerhalb generierter Bilder. Im Vergleich zu GPT-4o und Gemini-2.0-flash gelingt es SeedEdit laut ByteDance besser, Änderungen vorzunehmen, ohne die Bildidentität zu verlieren. Auch bei Aufgaben wie Text entfernen, ersetzen oder einfügen erzielt SeedEdit präzisere Ergebnisse mit weniger Artefakten, heißt es im Paper.

Dort gibt es auch zahlreiche Vergleichsbilder mit der Konkurrenz, die die Aussagen von ByteDance zu stützen scheinen. Auch wenn die Ergebnisse im Paper nur die beste Seite von Seedream 3.0 zeigen - das Modell spielt auf jeden Fall ganz oben mit. Seedream 3.0 soll unter anderem in ByteDances Chatbot Doubao integriert werden.