ByteDance: InfiniteYou erzeugt endlos konsistente Portraitvarianten

Der TikTok-Konzern ByteDance präsentiert mit InfiniteYou ein KI-System, das bestehende Schwächen bei der Generierung von Porträtfotos adressieren soll.

Das System nutzt einen anderen technischen Ansatz als bisherige Lösungen: Während Systeme wie PuLID-FLUX direkt die Aufmerksamkeitsmechanismen des KI-Modells manipulieren, um Gesichtsmerkmale zu verarbeiten, setzt ByteDance auf eine separate Komponente namens InfuseNet. Diese analysiert das Eingabebild und extrahiert daraus die charakteristischen Merkmale des Gesichts.

Diagramm: InfuseNet-Architektur zur Integration von Identitäts- und Kontrolleingaben in Text-zu-Bild-Modelle über residuale Verbindungen. — InfuseNet ist eine Architektur, die Identitätsmerkmale und Kontrolleingaben in Text-zu-Bild-Modelle injiziert. | Bild: ByteDance

Diese Merkmale werden dann nicht direkt in das Hauptmodell – ByteDance setzt auf Flux.1-dev – eingespeist, sondern als zusätzliche Informationsebene parallel verarbeitet. So könnten die Gesichtsmerkmale die Bildgenerierung beeinflussen, ohne dabei die grundlegenden Fähigkeiten des KI-Modells zu beeinträchtigen.

Collage mit Porträtfotos von Menschen unterschiedlichen Alters, Geschlechts und ethnischer Herkunft in unterschiedlichen Umgebungen — Die Ausgaben zeigen, dass InfU bei komplexen Texteingaben und Kontexten eine höhere sprachliche Qualität und Kohärenz liefert als die Vergleichsmodelle. | Bild: ByteDance

Nach Angaben der Entwickler:innen führt dieser vorsichtigere Umgang mit dem KI-Modell zu deutlich besseren Ergebnissen: Die generierten Bilder behielten nicht nur die Ähnlichkeit zur Originalperson bei, sondern setzten auch die Textanweisungen präziser um. Zudem vermeide das System häufige Probleme wie das simple Kopieren von Gesichtern oder eine verschlechterte Bildqualität, die bei bisherigen Ansätzen oft aufträten.

Training mit echten und synthetischen Daten

ByteDance trainiert das System zunächst mit echten Einzelporträts und anschließend mit künstlich erzeugten Bildern. Diese werden vom System selbst unter Verwendung zusätzlicher Optimierungsmodule erstellt.

In einer Nutzerstudie mit 16 Teilnehmenden bevorzugten 72,8 Prozent die Ergebnisse von InfiniteYou gegenüber dem Vergleichssystem PuLID-FLUX mit 27,2 Prozent. Die Studie bewertete dabei die Ähnlichkeit zum Originalgesicht, die Umsetzung der Textanweisungen, die Bildqualität und ästhetische Aspekte.

Kombination mit anderen KI-Werkzeugen möglich

Das System lässt sich mit verschiedenen KI-Werkzeugen wie ControlNet oder LoRA kombinieren. Es kann Bilder in nur vier Verarbeitungsschritten erzeugen und ermögliche, sowohl Personen als auch Objekte im Bild anzupassen.

Schaubild: InfiniteYou erlaubt Kombination von Eingabe-ID und -Stil zum Erzeugen angepasster Ausgabebilder. — InfiniteYou ist flexibel einsetzbar und unterstützt viele Methoden und Plugins für vielseitige Anwendungen | Bild: ByteDance

Die Entwickler:innen weisen darauf hin, dass es bei der Ähnlichkeit zum Originalgesicht und der Bildqualität trotz der Fortschritte noch Verbesserungsbedarf gibt. Auch die mögliche missbräuchliche Nutzung zur Erstellung von gefälschten Fotos sehen sie als Problem. Deshalb appelliert ByteDance daran, Systeme zu entwickeln, die KI-generierte Bilder erkennen können.

Der Code für InfiniteYou ist jetzt Open Source auf GitHub verfügbar. Die Modellgewichte können von Hugging Face heruntergeladen werden. Eine experimentelle Demo soll es auch geben, ist zum Zeitpunkt aber noch nicht verfügbar.

Empfehlung

KI-Forschung

Forscher schlagen Mensch-Nachweis vor, um Menschen online von KIs zu unterscheiden

ByteDance ist unter anderem Mitglied der Content Authenticity Initiative, einem Branchenverbund von Kameraherstellern und Medienanbietern, die ihre Werke durch die C2PA-Metadaten als echtes Foto oder KI-generiert kennzeichnen. Ob und wie dieses Verfahren bei InfiniteYou zum Einsatz kommt, verrät ByteDance im Paper nicht.

Bereits seit Anfang des Jahres hat ByteDance diverse weitere Forschungsprojekte in ähnlicher Richtung präsentiert. OmniHuman-1 etwa erstellt aus Bild- und Ton-Eingaben fotorealistische Animationen. Die Modelle der Goku-Reihe können indes überzeugende Videoclips generieren, die verblüffend menschlich anmutende KI-Avatare bei der Interaktion mit Produkten zeigen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

ByteDance: InfiniteYou erzeugt endlos konsistente Portraitvarianten

Training mit echten und synthetischen Daten

Kombination mit anderen KI-Werkzeugen möglich

Forscher schlagen Mensch-Nachweis vor, um Menschen online von KIs zu unterscheiden

Tiktok will mehr KI-Werbung auf seiner Plattform sehen

Seedance 1.0: Bytedance neues Video-KI-Modell kann mit Veo 3 mithalten

Bytedance startet mit Agent TARS in die Ära multimodaler KI-Agenten

KI-Coding kann Entwickler langsamer machen – auch wenn sie sich schneller fühlen

Musk präsentiert Grok 4: xAI-Modell übertrifft OpenAI und Google in Benchmarks

Katzen-Attacke auf Reasoning-Modell zeigt, wie wichtig "Context Engineering" ist

ByteDance: InfiniteYou erzeugt endlos konsistente Portraitvarianten

Training mit echten und synthetischen Daten

Kombination mit anderen KI-Werkzeugen möglich

Artikel teilen

Bankverbindung