Nachdem zuletzt Ideogram und Flux Geschwindigkeit und Genauigkeit bei KI-Bildern verbessert haben, gibt es jetzt einen neuen Benchmark: Recraft V3.
Das KI-Startup Recraft hat ein neues Bildgenerierungsmodell vorgestellt, das nach eigenen Angaben neue Maßstäbe in der KI-Bildgenerierung setzt. Für diese Aussage gibt es auch einen unabhängigen Beleg: Recraft V3 belegt im Hugging Face Benchmark für Text-zu-Bild-Modelle mit einem ELO-Wert von 1172 den ersten Platz vor den neuesten Modellen Flux und Ideogram.
Laut Recraft ist das eigene neueste Modell am besten bei der Generierung von Text in Bildern, der anatomischen Genauigkeit, dem Verständnis von Prompts und der ästhetischen Qualität. Das Modell soll zudem lange Texte am Stück korrekt rendern können, aktuellen Modellen gelingt das nur bei wenigen Worten.
Der Benchmark basiert auf einem Bewertungssystem, bei dem Nutzer der Plattform Bildpaare verschiedener Modelle in einem Blindtest vergleichen. Zur Bewertung wird das aus dem Schach bekannte ELO-System verwendet.
Präzise Kontrolle für Designer
Recraft hebt besonders die Kontrollfunktionen des neuen Modells hervor. Designer können damit die exakte Position und Größe von Text in Bildern festlegen und mehrere Referenzbilder zur Definition eines Markenstils verwenden. Diese Anpassungen sind ohne erneutes Training des Modells möglich.
Das Unternehmen bietet auch Vektorgrafik-Generierung an - von einfachen Piktogrammen bis zu detaillierten Illustrationen. Zusätzlich stehen KI-basierte Bildbearbeitungsfunktionen wie Radiergummi, Inpainting und Hintergrundentfernung zur Verfügung.
Der Web-Zugang ist mit 50 kostenlosen Credits täglich nutzbar, der Basisplan mit 1000 Credits kostet zehn Euro pro Monat. Für Entwickler und Unternehmen bietet Recraft eine API an.
Marktführer bereiten Updates vor
KI-Bild-Interessierte warten derzeit auf das neue Modell v7 des Platzhirsches Midjourney. Das aktuelle Modell von Midjourney erzeugt zwar die wohl ästhetischsten Bilder aller Modelle (Recraft sagt, dass es ästhetischer ist als MJ), hinkt aber beim Prompt-Verständnis und bei Text in Bildern deutlich hinterher. Dafür ist der kürzlich vorgestellte Editor ein mächtiges Bildbearbeitungstool - auch für vorhandenes Bildmaterial.
Auch OpenAI-Chef Sam Altman stellte kürzlich bei einem OpenAI-Event in London ein Update für OpenAIs mittlerweile veralteten DALL-E 3 in Aussicht. Bekannt ist, dass das neue multimodale GPT-4o bereits Bildgenerierungsfähigkeiten hat, die DALL-E 3 übertreffen, die bislang aber nicht freigeschaltet wurden. Womöglich wartet OpenAI die US-Wahlen ab.