Konsistente Charaktere: Midjourney behebt große Schwäche von KI-Bildgeneratoren

12. März 2024 Matthias Bastian

Die KI-Bildplattform Midjourney testet eine neue Funktion, mit der dieselbe Figur konsistent über verschiedene Bilder hinweg gezeigt werden kann.

Midjourney hat die neue Funktion "Character Reference" für Midjourney v6 eingeführt. Sie ermöglicht es, ein generiertes Referenzbild eines Charakters als Vorlage für neue Bilder zu verwenden. Der Charakter kann mit dem Befehl --cref URL in Discord und im Webinterface in neue Bilder eingefügt werden.

Mit dem Befehl --cw kann die Stärke der Referenz von 100 bis 0 eingestellt werden. Der Standardwert 100 umfasst Gesicht, Haare und Kleidung, also den gesamten Charakter, während der Wert 0 nur das Gesicht fokussiert, was nützlich ist, um Outfits oder Frisuren zu variieren.

Der Standardwert für --cw ist 100, und die Bilder auf dem Titelbild wurden mit diesem Wert erzeugt. Wie man sieht, bleiben Frisur und Kleidung in allen Bildern gleich. Es ist auch möglich, den Stil zu übertragen, also dieselbe Person als Foto (siehe Titelbild) und als handgezeichnetes Porträt zu zeigen.

Unser Model, der "rotbärtige Typ" in verschiedenen Zeichenstilen und Ansichten. Die obere Reihe zeigt ihn in neuem Outfit dank des Befehls "--cw 0". | Bild: Midjourney prompted by THE DECODER

KI-Bilder werden konsistenter

Laut Midjourney eignet sich diese Funktion besonders für Charaktere, die aus Midjourney-Bildern erstellt wurden, und weniger für Fotos von echten Personen, die von der KI verzerrt werden könnten.

Die "Character Reference" konzentriert sich auf charakteristische Merkmale, kann aber keine exakten Details wie Sommersprossen oder Markenlogos wiedergeben. In meinen Tests tauchten auch vereinzelt Tätowierungen auf, die nicht auf allen Bildern sichtbar sind.

Die Funktion ist sowohl mit dem Niji-Modell als auch mit normalen Midjourney-Modellen der v6-Serie kompatibel und kann mit der Funktion "Style Reference" (--sref) kombiniert werden. Darüber hinaus ist es möglich, Merkmale aus mehreren Bildern durch Angabe mehrerer Referenzbilder zu kombinieren.

In der Web-Alpha-Version der Plattform kann der Benutzer Bilder per Drag & Drop oder Copy & Paste in die Prompt-Spalte einfügen und auswählen, ob das Bild als Bildprompt, Style-Referenz oder Charakterreferenz verwendet werden soll.

Was auf den ersten Blick wie ein nettes Feature aussieht, könnte erhebliche wirtschaftliche Konsequenzen haben. Denn bisher war Konsistenz der Schwachpunkt von KI-Bildmodellen und ein Vorteil für menschliche Künstler oder Models. Mit der neuen Funktion könnte es nun möglich sein, etwa Bildgeschichten und Comics mit konsistenten Charakteren zu erstellen. Unternehmen könnten virtuelle Modelle in verschiedenen Bildserien verwenden.

Quellen:

Midjourney