Metas neue Bild-KI macht KI-Grafik besser kontrollierbar

Meta zeigt ein KI-System, das Menschen mehr Kontrolle über ihre KI-Kunst geben soll. Endstation: Metaverse.

KI-generierte Bilder ziehen seit Jahren ihre Kreise durch das Netz. Waren es vor wenigen Jahren noch primär GAN-basierte Systeme, die täuschend echte Katzen oder Menschen generieren, sind es heute multimodale Modelle, die gezielte Kreationen per Texteingabe erlauben. Nutzer:innen von DALL-E 2, Midjourney und Craiyon (ehemals DALL-E mini) fluten Twitter, Instagram und andere Kanäle mit Bildideen.

Die konkrete Kontrolle über diese Systeme ist jedoch häufig recht eingeschränkt: Text eingeben und auf Bilder warten - das war es. Mit manchen Systemen können Varianten interessanter Ergebnisse erzeugt werden. DALL-Es Kreativität kann zudem gezielt auf einzelne Stellen in einem bereits vorhandenen Bild gelenkt werden, um diesen Ausschnitt zu verändern. In einem eigentlich leeren Pool erscheint dann etwa ein Flamingo. Das Thema KI für Bilder und Grafik besprechen wir ausführlich im Podcast.

Meta experimentiert mit Text plus Skizze

In einer neuen Arbeit zeigen Meta-Forschende nun ein multimodales KI-System, das eine gezieltere Bild-Generierung erlaubt. Nutzer:innen können "Make-A-Scene" mit einem Sketch füttern und anschließend per Texteingabe den Generierungsprozess starten.

Während bei anderen KI-Systemen die Ergebnisse oft schwer vorhersehbar seien, könnten Menschen ihre Vision mit Make-A-Scene gezielt umsetzen, schreibt Meta.

Video: Meta

In der Skizze muss dafür das grundlegende Szenen-Layout festgelegt werden. Die Texteingabe füllt das Gerüst dann mit KI-Kreationen. Das Modell könne zudem auch eigene Layouts per Texteingabe erstellen - damit geben Nutzer:innen allerdings einen Teil der Kontrolle wieder ab.

Für Meta ist Make-A-Scene ein Schritt hin zu gezielterer KI-Kreation

Laut Meta haben einige Künstler:innen testweise Zugang zu Make-A-Scene erhalten. Einer der Entwickler hat das System mit seinen Kindern getestet, um etwa Monster-Bären auf Zügen fahren zu lassen. Eine Veröffentlichung ist vorerst nicht geplant: Für Meta ist Make-A-Scene ein Experiment in der KI-Kreativität mit Fokus auf Nutzersteuerung.

Was das ist? Ein Monster-Bär auf einem Zug - ist doch klar. | Bild: Meta

Um das Potenzial von KI zur Förderung kreativen Ausdrucks zu nutzen, müssten Menschen in der Lage sein, die vom System generierten Inhalte zu gestalten und zu kontrollieren, schreibt Meta. Dafür müsse ein entsprechendes System intuitiv und einfach zu bedienen sein - mit Sprache, Text, Skizzen, Gesten oder Augenbewegungen.

Empfehlung

KI in der Praxis

OpenAI veröffentlicht o1-Vollversion und ChatGPT Pro für 200 US-Dollar pro Monat

Meta erhofft sich dank KI-Hilfe eine neue Gattung digitaler Kreativ-Werkzeuge, die vielen Menschen ausdrucksstarke Botschaften in 2D, XR und virtuellen Welten ermögliche.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Metas neue Bild-KI macht KI-Grafik besser kontrollierbar

Meta experimentiert mit Text plus Skizze

Für Meta ist Make-A-Scene ein Schritt hin zu gezielterer KI-Kreation

OpenAI veröffentlicht o1-Vollversion und ChatGPT Pro für 200 US-Dollar pro Monat

Metas neues KI-Modell soll die Wikipedia verbessern

Wie Zuckerbergs Metaverse-Wette aufgehen könnte

KI-Universalübersetzer: Meta knackt neue Bestmarke

Mit OpenAIs Sora wird die lange prognostizierte Deepfake-Dystopie Realität

Anthropic will mit Claude Haiku 4.5 die Eintrittsschwelle für leistungsfähige KI senken

OpenAI: GPT-5 soll deutlich weniger politisch voreingenommen sein

Metas neue Bild-KI macht KI-Grafik besser kontrollierbar

Meta experimentiert mit Text plus Skizze

Für Meta ist Make-A-Scene ein Schritt hin zu gezielterer KI-Kreation

Artikel teilen

Bankverbindung