Skip to content

ByteDance: InfiniteYou erzeugt endlos konsistente Portraitvarianten

Image description
ByteDance

Kurz & Knapp

  • ByteDance stellt mit InfiniteYou ein KI-System für Porträtfotos vor, das einen neuen technischen Ansatz nutzt: Statt die Aufmerksamkeitsmechanismen des KI-Modells direkt zu manipulieren, verwendet es eine separate Komponente namens InfuseNet zur Analyse und Extraktion von Gesichtsmerkmalen.
  • In einer Nutzerstudie mit 16 Teilnehmenden bevorzugten 72,8 Prozent die Ergebnisse von InfiniteYou gegenüber dem Vergleichssystem. Das System kann Bilder in nur vier Verarbeitungsschritten erzeugen und lässt sich mit verschiedenen KI-Werkzeugen wie ControlNet oder LoRA kombinieren.
  • Der Code ist jetzt als Open Source auf GitHub verfügbar, die Modellgewichte gibt es auf Hugging Face. ByteDance räumt ein, dass es bei der Gesichtsähnlichkeit und Bildqualität noch Verbesserungsbedarf gibt und betont die Wichtigkeit, Systeme zur Erkennung KI-generierter Bilder zu entwickeln.

Der TikTok-Konzern ByteDance präsentiert mit InfiniteYou ein KI-System, das bestehende Schwächen bei der Generierung von Porträtfotos adressieren soll.

Das System nutzt einen anderen technischen Ansatz als bisherige Lösungen: Während Systeme wie PuLID-FLUX direkt die Aufmerksamkeitsmechanismen des KI-Modells manipulieren, um Gesichtsmerkmale zu verarbeiten, setzt ByteDance auf eine separate Komponente namens InfuseNet. Diese analysiert das Eingabebild und extrahiert daraus die charakteristischen Merkmale des Gesichts.

Diagramm: InfuseNet-Architektur zur Integration von Identitäts- und Kontrolleingaben in Text-zu-Bild-Modelle über residuale Verbindungen.
InfuseNet ist eine Architektur, die Identitätsmerkmale und Kontrolleingaben in Text-zu-Bild-Modelle injiziert. | Bild: ByteDance

Diese Merkmale werden dann nicht direkt in das Hauptmodell – ByteDance setzt auf Flux.1-dev – eingespeist, sondern als zusätzliche Informationsebene parallel verarbeitet. So könnten die Gesichtsmerkmale die Bildgenerierung beeinflussen, ohne dabei die grundlegenden Fähigkeiten des KI-Modells zu beeinträchtigen.

Collage mit Porträtfotos von Menschen unterschiedlichen Alters, Geschlechts und ethnischer Herkunft in unterschiedlichen Umgebungen
Die Ausgaben zeigen, dass InfU bei komplexen Texteingaben und Kontexten eine höhere sprachliche Qualität und Kohärenz liefert als die Vergleichsmodelle. | Bild: ByteDance

Nach Angaben der Entwickler:innen führt dieser vorsichtigere Umgang mit dem KI-Modell zu deutlich besseren Ergebnissen: Die generierten Bilder behielten nicht nur die Ähnlichkeit zur Originalperson bei, sondern setzten auch die Textanweisungen präziser um. Zudem vermeide das System häufige Probleme wie das simple Kopieren von Gesichtern oder eine verschlechterte Bildqualität, die bei bisherigen Ansätzen oft aufträten.

Training mit echten und synthetischen Daten

ByteDance trainiert das System zunächst mit echten Einzelporträts und anschließend mit künstlich erzeugten Bildern. Diese werden vom System selbst unter Verwendung zusätzlicher Optimierungsmodule erstellt.

In einer Nutzerstudie mit 16 Teilnehmenden bevorzugten 72,8 Prozent die Ergebnisse von InfiniteYou gegenüber dem Vergleichssystem PuLID-FLUX mit 27,2 Prozent. Die Studie bewertete dabei die Ähnlichkeit zum Originalgesicht, die Umsetzung der Textanweisungen, die Bildqualität und ästhetische Aspekte.

Kombination mit anderen KI-Werkzeugen möglich

Das System lässt sich mit verschiedenen KI-Werkzeugen wie ControlNet oder LoRA kombinieren. Es kann Bilder in nur vier Verarbeitungsschritten erzeugen und ermögliche, sowohl Personen als auch Objekte im Bild anzupassen.

Schaubild: InfiniteYou erlaubt Kombination von Eingabe-ID und -Stil zum Erzeugen angepasster Ausgabebilder.
InfiniteYou ist flexibel einsetzbar und unterstützt viele Methoden und Plugins für vielseitige Anwendungen | Bild: ByteDance

Die Entwickler:innen weisen darauf hin, dass es bei der Ähnlichkeit zum Originalgesicht und der Bildqualität trotz der Fortschritte noch Verbesserungsbedarf gibt. Auch die mögliche missbräuchliche Nutzung zur Erstellung von gefälschten Fotos sehen sie als Problem. Deshalb appelliert ByteDance daran, Systeme zu entwickeln, die KI-generierte Bilder erkennen können.

Der Code für InfiniteYou ist jetzt Open Source auf GitHub verfügbar. Die Modellgewichte können von Hugging Face heruntergeladen werden. Eine experimentelle Demo soll es auch geben, ist zum Zeitpunkt aber noch nicht verfügbar.

ByteDance ist unter anderem Mitglied der Content Authenticity Initiative, einem Branchenverbund von Kameraherstellern und Medienanbietern, die ihre Werke durch die C2PA-Metadaten als echtes Foto oder KI-generiert kennzeichnen. Ob und wie dieses Verfahren bei InfiniteYou zum Einsatz kommt, verrät ByteDance im Paper nicht.

Bereits seit Anfang des Jahres hat ByteDance diverse weitere Forschungsprojekte in ähnlicher Richtung präsentiert. OmniHuman-1 etwa erstellt aus Bild- und Ton-Eingaben fotorealistische Animationen. Die Modelle der Goku-Reihe können indes überzeugende Videoclips generieren, die verblüffend menschlich anmutende KI-Avatare bei der Interaktion mit Produkten zeigen.

Quelle: Arxiv | GitHub | Hugging Face

KI-News ohne Hype
Von Menschen kuratiert.

  • Mehr als 20 Prozent Launch-Rabatt.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: „KI Radar“ – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.
The Decoder abonnieren