Bildautomatik: Neue KI-Technik malt Bilder auf Zuruf

Eine neue KI kann Bilder anhand sprachlicher Beschreibungen erträumen. Die Technik steht erst am Anfang, aber könnte einmal unseren Umgang mit Medien revolutionieren.

Forscher von Google, der Universität Kalifornien, Merced und der Yonsei University haben die KI RetrieveGAN gebaut, die Bilder anhand von Beschreibungen generiert. Diese KI-gestützte Bildgenerierung könnte in der Kunst, im Design oder Marketing genutzt werden, um Motive und Bildwelten auf Zuruf automatisch erstellen zu lassen.

RetrieveGAN arbeitet in drei Schritten: Beschreibung verstehen, passende Bildbausteine zusammensuchen und Bild generieren.

Die Beschreibungen enthalten Objekte und ihre Beziehungen zueinander. Die KI wählt passende Bildausschnitte aus und fügt sie zusammen. | Bild: Tseng et al.

Im ersten Schritt bekommt die KI einen sogenannten Szenengraphen. In dem werden in natürlicher Sprache Objekte und Relationen in einer Art Baumdiagramm dargestellt.

Aus dem Graphen leitet die KI dann die Objekte und ihre Positionierung im gewünschten Bild ab. Aus den Informationen erstellt sie einen ersten Entwurf, der lediglich aus Begrenzungsboxen besteht, die die Position der einzelnen Objekte sichert.

Im zweiten Schritt sucht die KI in einer Datenbank nach Bildausschnitten der gewünschten Objekte, etwa einen Surfer, ein Stück blauen Himmel, einen Strand und einen Meerabschnitt. Im letzten Schritt fügt ein GAN-Netzwerk das Bild aus den Begrenzungsboxen und Bildausschnitten zusammen.

Die KI verarbeitet den Graphen, sagt Boxen vorher, wählt Bildausschnitte aus und fügt am Ende alles zusammen. | Bild: Tseng et al. — Die KI verarbeitet den Graphen, sagt Boxen vorher, wählt Bildausschnitte aus und fügt am Ende alle Elemente zu einem Bild zusammen. | Bild: Tseng et al.

RetrieveGAN lernt visuelle Zusammenhänge

Ähnliche KIs existieren schon, doch die Macher von RetrieveGAN versprechen bessere Resultate. Der Grund: Die KI lernt, zusammenpassende Bildausschnitte auszuwählen.

Die Forscher geben das Beispiel eines Feldspielers bei einer Sportart: In der Beschreibung wird womöglich nicht deutlich, ob es sich um einen Fußball- oder Baseballspieler handeln soll. Ältere Systeme können dann den Fehler machen, ein Baseballfeld mit Feldspielern beider Sportarten zu füllen.

Empfehlung

KI in der Praxis

Update

OpenAI hat einen 99,9 % genauen ChatGPT-Text-Detektor, veröffentlicht ihn aber nicht

RetrieveGAN lernt, solche Beziehungen zwischen verschiedenen Objekten einer Szene zu beachten und liefert so in sich stimmige Bilder. Trainiert wurde die KI dafür mit den zwei Bilddatensätzen COC-Stuff und Visual Genome. Anschließend wählt die KI ein Objekt nach dem anderen aus und achtet bei jedem Schritt darauf, dass die Inhalte zueinander und zur Anweisung passen.

Die Bilder sind häufig noch verwaschen, verzerrt oder mit geometrischen Absurditäten gespickt. Dennoch ist klar erkennbar, dass das Bild eine Repräsentation der ursprünglichen Beschreibung darstellt. Im Vergleich zu älteren Methoden schneide RetrieveGAN besser ab, schreiben die Forscher.

Beachtet man die sich schnell entwickelnden Generative Adversarial Networks (GAN-Geschichte), aus denen immer bessere Deepfakes entstehen, sind zeitnahe Verbesserungen der neuen KI-Technik wahrscheinlich. Die Forscher erhoffen sich Fortschritte, indem sie die Auswahl an Bildausschnitten erhöhen und den Lernprozess verbessern.

Titelbild: Tseng at al. | Via: Arxiv

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Bildautomatik: Neue KI-Technik malt Bilder auf Zuruf

RetrieveGAN lernt visuelle Zusammenhänge

OpenAI hat einen 99,9 % genauen ChatGPT-Text-Detektor, veröffentlicht ihn aber nicht

Weiterlesen über Künstliche Intelligenz:

OpenAI, Github & Microsoft: KI-Programmier-Tool Copilot startet

Deepfakes: Wie alles begann - und wohin es führen könnte

Alexa Guide: Routinen, Multiroom, Anrufe & Echo einrichten

Deepseek-R1 löst Boom bei Reasoning-fähigen Sprachmodellen aus

US-Denkfabrik warnt vor "umgekehrtem Brain Drain" in Chinas KI-Sektor

Umstrittenes KI-Manipulationsexperiment der Universität Zürich auf Reddit endet ohne Paper

Bildautomatik: Neue KI-Technik malt Bilder auf Zuruf

RetrieveGAN lernt visuelle Zusammenhänge

Weiterlesen über Künstliche Intelligenz:

Artikel teilen

Bankverbindung