Inhalt
newsletter Newsletter

Googles neueste Bild-KI Parti generiert Bilder aus besonders umfangreichen Beschreibungen. Dadurch lassen sich die Ergebnisse noch genauer steuern.

Anzeige

Kürzlich stellte Google die Bild-KI Imagen vor, die mit einer ähnlichen Architektur (Diffusion) wie Open AIs DALL-E 2 Bilder generiert, aber für den Input ein großes KI-Sprachmodell verwendet - und dank dessen höherem Sprachverständnis bessere Bild-Ergebnisse aus Textbeschreibungen generieren kann.

Das jetzt von Google neu vorgestellte KI-Modell Parti (Pathways Autoregressive Text-to-Image) testet eine alternative Architektur (autoregressiv), die noch näher an der Funktion von großen Sprachmodellen etwa für die Übersetzung ist.

Diese Sprachmodelle sagen passende neue Wörter anhand vorheriger Wörter und im Kontext des Satzes oder Absatzes vorher. Parti wendet dieses Prinzip auf Bilder an - mit Erfolg.

Anzeige
Anzeige

Parti skaliert - und hat laut Google Weltwissen

Denn wie bei den großen Sprachmodellen zeigt sich auch bei Parti, dass die Bild-KI mit umfassenderem Training und mehr Parametern deutlich bessere Ergebnisse erzielt. Einfach gesagt: Das KI-Modell skaliert - und wie. Zudem kann es besonders lange, komplexe Texteingaben akkurat in Bilder umsetzen, was für ein noch besseres Verständnis für den Zusammenhang zwischen Sprache und Motiven spricht.

A portrait photo of a kangaroo wearing an orange hoodie and blue sunglasses standing on the grass in front of the Sydney Opera House holding a sign on the chest that says Welcome Friends!
Parti kann anhand besonders ausführlicher Texteingaben detaillierte Bilder generieren. Je umfassender das Modell trainiert ist, desto besser funktioniert das. Das größte Modell kann sogar schreiben. Die Eingabe für dieses Bild lautet: "A portrait photo of a kangaroo wearing an orange hoodie and blue sunglasses standing on the grass in front of the Sydney Opera House holding a sign on the chest that says Welcome Friends!" | Bild: Google

Das Bild oben zeigt den Qualitätsunterschied bei derselben Eingabeaufforderung bei vier unterschiedlich umfangreich trainierten Parti-Modellen. Das größte Modell mit 20 Milliarden Parametern generiert das fehlerfreiste Bild passend zur umfangreichen Texteingabe. Anders als DALL-E 2 kann Parti in der größten Fassung sogar Wörter richtig schreiben ("Welcome Friends").

"Das Modell 20B eignet sich besonders gut für abstrakte Aufgaben, die Weltwissen, bestimmte Perspektiven oder das Schreiben und Darstellen von Symbolen erfordern", schreibt Googles Forschungsteam.

Eingabe: "A photo of an astronaut riding a horse in the forest. There is a river in front of them with water lilies." | Bild: Parti / Google

Menschliche Tester:innen bevorzugten die Ausgaben des größten Modells im Vergleich zum Drei-Milliarden-Modell in rund 63 Prozent der Fälle. In rund 76 Prozent der Fälle sprachen sie dem 20-Milliarden-Modell die besser zum Text passende Bildausgabe zu.

Beschreibung: "A green sign that says 'Very Deep Learning' and is at the edge of the Grand Canyon. Puffy white clouds are in the sky." | Bild: Parti / Google

Generiert werden die Bilder in der Auflösung 256 x 256 Pixel, anschließend werden sie auf 1024 x 1024 Pixel hochskaliert.

Empfehlung

Auch Parti kann nicht zählen

Parti kann zudem fantastische Bilder generieren von Motiven, die nicht Teil des Trainingsmaterials waren und die nicht existieren. Die Forschenden sprechen der Bild-KI die Fähigkeiten zu, Weltwissen genau wiederzugeben, viele Protagonisten und Objekte mit feinen Details und Interaktionen zusammenzustellen und ein bestimmtes Bildformat sowie einen bestimmten Stil einzuhalten.

Parti beherrscht wie Imagen oder DALL-E 2 viele unterschiedliche Bildstile. Dafür reicht es, den gewünschten Stil in die Textbeschreibung aufzunehmen. | Bild: Google

Dennoch habe das System noch zahlreiche Probleme, etwa bei der Darstellung von sinnvollen Größenverhältnissen oder bei der Unterscheidung und - wie DALL-E 2 - Zählung von Objekten innerhalb eines Bildes.

Bei der Bildeingabe "Zwei Baseballs liegen links von drei Tennisbällen" generiert das System zwei Tennisbälle und rechts davon einen weiteren Tennisball mit den Nähten eines Baseballs. Hinzu kommen technische Fehler wie auslaufende Farben.

Bild: Parti / Google

Bedenken hat das Forschungsteam hinsichtlich der Generierung von Stereotypen, ein Problem, mit dem Imagen und DALL-E 2 ebenso zu kämpfen haben. So werden etwa Klischees von typischen Männer- und Frauenberufen verstärkt. Zudem gebe es wegen der möglichen fotorealistischen Generierung von Menschen ein zusätzliches Deepfake-Risiko. Deswegen verzichten die Forschenden zunächst auf die Veröffentlichung des Modells, des Codes und weiterer Daten. Es möchte weiter an den Problemen arbeiten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Ist Parti Googles Bild-KI für Pathways

Interessant ist noch der Name: Das P in Parti steht für Pathways, Googles KI-Architektur der nächsten Generation, die Googles KI-Chef Jeff Dean Ende 2021 erstmals vorstellte.

Ziel von Pathways ist ein intelligentes KI-Mehrzwecksystem, das eines Tages "über Millionen Aufgaben" hinweg generalisieren kann. Dass Parti das Pathway im Namen trägt, könnte ein Hinweis sein, dass es den Bild-Part in dieser Zukunftsarchitektur übernimmt. Laut Googles Forschungsteam sind Kombinationen aus der Parti- und der Imagen-Architektur denkbar.

Das Team zeigt auf einer Webseite viele weitere interaktive Positiv- und Negativbeispiele von Parti-Bildern und erklärt den Aufbau des Systems im Detail.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!