Inhalt
summary Zusammenfassung

Der TikTok-Konzern ByteDance präsentiert mit InfiniteYou ein KI-System, das bestehende Schwächen bei der Generierung von Porträtfotos adressieren soll.

Anzeige

Das System nutzt einen anderen technischen Ansatz als bisherige Lösungen: Während Systeme wie PuLID-FLUX direkt die Aufmerksamkeitsmechanismen des KI-Modells manipulieren, um Gesichtsmerkmale zu verarbeiten, setzt ByteDance auf eine separate Komponente namens InfuseNet. Diese analysiert das Eingabebild und extrahiert daraus die charakteristischen Merkmale des Gesichts.

Diagramm: InfuseNet-Architektur zur Integration von Identitäts- und Kontrolleingaben in Text-zu-Bild-Modelle über residuale Verbindungen.
InfuseNet ist eine Architektur, die Identitätsmerkmale und Kontrolleingaben in Text-zu-Bild-Modelle injiziert. | Bild: ByteDance

Diese Merkmale werden dann nicht direkt in das Hauptmodell – ByteDance setzt auf Flux.1-dev – eingespeist, sondern als zusätzliche Informationsebene parallel verarbeitet. So könnten die Gesichtsmerkmale die Bildgenerierung beeinflussen, ohne dabei die grundlegenden Fähigkeiten des KI-Modells zu beeinträchtigen.

Collage mit Porträtfotos von Menschen unterschiedlichen Alters, Geschlechts und ethnischer Herkunft in unterschiedlichen Umgebungen
Die Ausgaben zeigen, dass InfU bei komplexen Texteingaben und Kontexten eine höhere sprachliche Qualität und Kohärenz liefert als die Vergleichsmodelle. | Bild: ByteDance

Nach Angaben der Entwickler:innen führt dieser vorsichtigere Umgang mit dem KI-Modell zu deutlich besseren Ergebnissen: Die generierten Bilder behielten nicht nur die Ähnlichkeit zur Originalperson bei, sondern setzten auch die Textanweisungen präziser um. Zudem vermeide das System häufige Probleme wie das simple Kopieren von Gesichtern oder eine verschlechterte Bildqualität, die bei bisherigen Ansätzen oft aufträten.

Anzeige
Anzeige

Training mit echten und synthetischen Daten

ByteDance trainiert das System zunächst mit echten Einzelporträts und anschließend mit künstlich erzeugten Bildern. Diese werden vom System selbst unter Verwendung zusätzlicher Optimierungsmodule erstellt.

In einer Nutzerstudie mit 16 Teilnehmenden bevorzugten 72,8 Prozent die Ergebnisse von InfiniteYou gegenüber dem Vergleichssystem PuLID-FLUX mit 27,2 Prozent. Die Studie bewertete dabei die Ähnlichkeit zum Originalgesicht, die Umsetzung der Textanweisungen, die Bildqualität und ästhetische Aspekte.

Kombination mit anderen KI-Werkzeugen möglich

Das System lässt sich mit verschiedenen KI-Werkzeugen wie ControlNet oder LoRA kombinieren. Es kann Bilder in nur vier Verarbeitungsschritten erzeugen und ermögliche, sowohl Personen als auch Objekte im Bild anzupassen.

Schaubild: InfiniteYou erlaubt Kombination von Eingabe-ID und -Stil zum Erzeugen angepasster Ausgabebilder.
InfiniteYou ist flexibel einsetzbar und unterstützt viele Methoden und Plugins für vielseitige Anwendungen | Bild: ByteDance

Die Entwickler:innen weisen darauf hin, dass es bei der Ähnlichkeit zum Originalgesicht und der Bildqualität trotz der Fortschritte noch Verbesserungsbedarf gibt. Auch die mögliche missbräuchliche Nutzung zur Erstellung von gefälschten Fotos sehen sie als Problem. Deshalb appelliert ByteDance daran, Systeme zu entwickeln, die KI-generierte Bilder erkennen können.

Der Code für InfiniteYou ist jetzt Open Source auf GitHub verfügbar. Die Modellgewichte können von Hugging Face heruntergeladen werden. Eine experimentelle Demo soll es auch geben, ist zum Zeitpunkt aber noch nicht verfügbar.

Empfehlung

ByteDance ist unter anderem Mitglied der Content Authenticity Initiative, einem Branchenverbund von Kameraherstellern und Medienanbietern, die ihre Werke durch die C2PA-Metadaten als echtes Foto oder KI-generiert kennzeichnen. Ob und wie dieses Verfahren bei InfiniteYou zum Einsatz kommt, verrät ByteDance im Paper nicht.

Bereits seit Anfang des Jahres hat ByteDance diverse weitere Forschungsprojekte in ähnlicher Richtung präsentiert. OmniHuman-1 etwa erstellt aus Bild- und Ton-Eingaben fotorealistische Animationen. Die Modelle der Goku-Reihe können indes überzeugende Videoclips generieren, die verblüffend menschlich anmutende KI-Avatare bei der Interaktion mit Produkten zeigen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • ByteDance stellt mit InfiniteYou ein KI-System für Porträtfotos vor, das einen neuen technischen Ansatz nutzt: Statt die Aufmerksamkeitsmechanismen des KI-Modells direkt zu manipulieren, verwendet es eine separate Komponente namens InfuseNet zur Analyse und Extraktion von Gesichtsmerkmalen.
  • In einer Nutzerstudie mit 16 Teilnehmenden bevorzugten 72,8 Prozent die Ergebnisse von InfiniteYou gegenüber dem Vergleichssystem. Das System kann Bilder in nur vier Verarbeitungsschritten erzeugen und lässt sich mit verschiedenen KI-Werkzeugen wie ControlNet oder LoRA kombinieren.
  • Der Code ist jetzt als Open Source auf GitHub verfügbar, die Modellgewichte gibt es auf Hugging Face. ByteDance räumt ein, dass es bei der Gesichtsähnlichkeit und Bildqualität noch Verbesserungsbedarf gibt und betont die Wichtigkeit, Systeme zur Erkennung KI-generierter Bilder zu entwickeln.
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!