Inhalt
summary Zusammenfassung

ByteDance bringt mit Seedream 3.0 ein neues Text-zu-Bild-Modell auf den Markt. Es soll schneller, präziser und ästhetisch ansprechender sein als bisherige Systeme – sogar besser als GPT-4o.

Anzeige

ByteDance hat mit Seedream 3.0 ein neues Text-zu-Bild-Modell veröffentlicht, das in internen und externen Benchmarks deutlich besser abschneidet als das Vorgängermodell Seedream 2.0 und die Qualität aktueller Konkurrenzprodukte wie GPT-4o, Midjourney v6.1 oder Imagen 3 erreicht oder übertrifft.

Das Modell wurde mit doppelt so vielen Trainingsdaten als der Vorgänger trainiert, darunter auch zuvor aussortierte Bilder, deren Defekte nun maskiert werden. Neue Trainingsmethoden – etwa Resolution-aware Sampling und Mixed-Resolution-Training – sollen die Ausgabegenauigkeit bei verschiedenen Bildgrößen verbessern. Es unterstützt native 2K-Auflösung und benötigt nur noch rund drei Sekunden für ein 1K-Bild.

Seedream 3.0 schlägt GPT-4o

In Benchmarks wie der Artificial Analysis Arena, bei dem User jeweils zwei Bilder verschiedener Modelle bewerten, belegte Seedream 3.0 zur Veröffentlichung des Papers den ersten Platz, mittlerweile liegt das Modell wieder hinter GPT-4o, allerdings nur mit einem Punkt (Arena ELO 1156 vs. 1157). Besonders fällt das Modell bei textlastigen Prompts auf: Es erreicht eine Textverfügbarkeitsrate von 94 Prozent in Englisch und Chinesisch, auch bei dichter Typografie.

Anzeige
Anzeige

Für diese Leistung wurden spezielle Trainingsdaten mit ästhetischen und stilistischen Beschreibungen eingesetzt. Die Ergebnisse übertreffen laut den Entwicklern nicht nur GPT-4o, sondern sogar grafische Designplattformen wie Canva. Diese Aussage bezieht sich vor allem auf die Qualität der Typografie und das Zusammenspiel von Text und Bild, etwa bei Postern oder Stickermotiven, die in den Evaluierungen als Benchmarks dienten.

Bild: ByteDance

Bei fotorealistischen Porträts liegt Seedream 3.0 im direkten Vergleich mit Midjourney v6.1 laut ByteDance ebenfalls vorn. Die Bilder sollen realistischere Hautstrukturen, feine Details wie Falten und Haare zeigen und so den typischen „glatten“ KI-Look vermeiden. Anders als viele Modelle benötigt Seedream 3.0 keine nachträgliche Hochskalierung, sondern erzeugt hochauflösende Porträts direkt.

SeedEdit soll Bilder besser editieren als die Konkurrenz

SeedEdit, ein Ableger von Seedream, ermöglicht Bild- und Textbearbeitung innerhalb generierter Bilder. Im Vergleich zu GPT-4o und Gemini-2.0-flash gelingt es SeedEdit laut ByteDance besser, Änderungen vorzunehmen, ohne die Bildidentität zu verlieren. Auch bei Aufgaben wie Text entfernen, ersetzen oder einfügen erzielt SeedEdit präzisere Ergebnisse mit weniger Artefakten, heißt es im Paper.

Bild: ByteDance

Dort gibt es auch zahlreiche Vergleichsbilder mit der Konkurrenz, die die Aussagen von ByteDance zu stützen scheinen. Auch wenn die Ergebnisse im Paper nur die beste Seite von Seedream 3.0 zeigen - das Modell spielt auf jeden Fall ganz oben mit. Seedream 3.0 soll unter anderem in ByteDances Chatbot Doubao integriert werden.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • ByteDance hat mit Seedream 3.0 ein neues Text-zu-Bild-Modell auf den Markt gebracht, das Bilder in hoher Auflösung direkt generieren kann.
  • In Tests schneidet Seedream 3.0 besonders gut bei der Darstellung von Texten in Bildern ab und erreicht eine Erfolgsquote von 94 Prozent. Auch bei Porträts erzeugt das Modell realistische Hautstrukturen, feine Haare und kleine Details wie Falten oder Narben. Damit übertrifft es laut ByteDance nicht nur die Vorgängerversion, sondern auch Konkurrenzmodelle wie GPT-4o oder Midjourney.
  • Das dazugehörige Tool SeedEdit kann ermöglicht Bild- und Textbearbeitung in Bildern.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!