Studie: Automatisches Prompt-Umschreiben durch ChatGPT reduziert Leistung von DALL-E 3

Midjourney prompted by THE DECODER

Eine Studie der University of California, Berkeley, zeigt, dass die automatische Überarbeitung von Prompts durch ein großes Sprachmodell die Qualität der von DALL-E 3 generierten Bilder erheblich reduziert. Das könnte die Fähigkeit der Nutzer einschränken, das volle Potenzial des Modells auszuschöpfen.

Forscher der University of California, Berkeley, untersuchten in einem Online-Experiment mit 1.891 Teilnehmern, wie sich die automatische Prompt-Überarbeitung durch ein großes Sprachmodell (LLM) auf die Bildqualität von DALL-E 3 auswirkt.

Das Ergebnis: Die LLM-basierte Prompt-Überarbeitung reduzierte die Vorteile von DALL-E 3 gegenüber DALL-E 2 um fast 58 Prozent.

Zwar erzielten die Nutzer von DALL-E 3 mit Prompt-Überarbeitung bessere Ergebnisse als jene mit DALL-E 2. Der positive Effekt war jedoch geringer, als wenn die für DALL-E 2 geschriebenen Prompts direkt an DALL-E 3 übergeben wurden. OpenAI verwendet das Prompt-Umschreiben durch ChatGPT auch als Sicherheits- und Moderationsfunktion.

Die Ergebnisse der Studie legen nahe, dass KI-gestützte Prompt-Revisionen in ihrer derzeitigen Form kein Allheilmittel sind. Sie könnten sogar die Fähigkeit der Nutzer beeinträchtigen, das volle Potenzial eines Modells auszuschöpfen, wenn sie nicht mit den Zielen des Endnutzers übereinstimmen.

Menschen prompten fortgeschrittene KI detaillierter

In dem Experiment wurde jeder Teilnehmer nach dem Zufallsprinzip einem von drei Text-zu-Bild-Modellen zugeordnet: DALL-E 2, dem leistungsfähigeren DALL-E 3 oder einer Version von DALL-E 3 mit automatischer Prompt-Überarbeitung. Die Aufgabe bestand darin, in zehn aufeinander folgenden Versuchen Prompts zu schreiben, die ein Zielbild so genau wie möglich reproduzierten.

In dem Experiment mussten Teilnehmende per Prompt ein Zielbild möglichst genau nachbilden. | Bild: Jahani et al.

Die Ergebnisse zeigten eine bessere Leistung von DALL-E 3 im Vergleich zu DALL-E 2 und einen signifikanten Unterschied in der Ähnlichkeit der generierten Bilder mit den Zielbildern.

Die Forscher identifizierten zwei Hauptgründe für die Leistungsunterschiede zwischen DALL-E 2 und DALL-E 3: zum einen die verbesserten technischen Möglichkeiten von DALL-E 3 und zum anderen die Anpassung der Prompting-Strategien durch die Benutzer. Interessanterweise schrieben die Benutzer von DALL-E 3 längere Prompts mit größerer semantischer Ähnlichkeit und mehr beschreibenden Wörtern, obwohl sie nicht wussten, welches Modell sie verwendeten.

Die Forscher vermuten, dass sich mit der Weiterentwicklung der Modelle ein Wechselspiel entwickeln könnte: Während die Modelle besser werden, passen die Menschen ihre Prompts kontinuierlich an, um die Fähigkeiten des neuesten Modells optimal zu nutzen. Dies deutet darauf hin, dass neuere Modelle das Prompting nicht überflüssig machen werden. Vielmehr wird das Prompting der Mechanismus sein, mit dem die Menschen die Fähigkeiten der neuen Modelle erschließen.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Empfehlung

KI-Forschung

Studie: Automatisches Prompt-Umschreiben durch ChatGPT reduziert Leistung von DALL-E 3

Menschen prompten fortgeschrittene KI detaillierter

Studie deckt gravierende Logik-Schwächen bei kleinen KI-Sprachmodellen auf

Microsofts MAI-DxO sorgt für präzisere KI-Diagnosen und spart fast 70 Prozent der Kosten

Forschende haben womöglich eine Leiter für die "Datenmauer" gefunden

OmniGen 2 vereint Bild und Text wie GPT-4o, ist aber Open Source

Cloudflare-Boss Matthew Prince hat schlechte Nachrichten für das WWW

Othello-Experiment stützt erneut Weltmodell-Hypothese für große Sprachmodelle

MIT-Studie zeigt "kognitive Schulden" durch ChatGPT - was das für die Praxis bedeutet

Studie: Automatisches Prompt-Umschreiben durch ChatGPT reduziert Leistung von DALL-E 3

Menschen prompten fortgeschrittene KI detaillierter

Artikel teilen

Bankverbindung