Eine Studie der University of California, Berkeley, zeigt, dass die automatische Überarbeitung von Prompts durch ein großes Sprachmodell die Qualität der von DALL-E 3 generierten Bilder erheblich reduziert. Das könnte die Fähigkeit der Nutzer einschränken, das volle Potenzial des Modells auszuschöpfen.
Forscher der University of California, Berkeley, untersuchten in einem Online-Experiment mit 1.891 Teilnehmern, wie sich die automatische Prompt-Überarbeitung durch ein großes Sprachmodell (LLM) auf die Bildqualität von DALL-E 3 auswirkt.
Das Ergebnis: Die LLM-basierte Prompt-Überarbeitung reduzierte die Vorteile von DALL-E 3 gegenüber DALL-E 2 um fast 58 Prozent.
Zwar erzielten die Nutzer von DALL-E 3 mit Prompt-Überarbeitung bessere Ergebnisse als jene mit DALL-E 2. Der positive Effekt war jedoch geringer, als wenn die für DALL-E 2 geschriebenen Prompts direkt an DALL-E 3 übergeben wurden. OpenAI verwendet das Prompt-Umschreiben durch ChatGPT auch als Sicherheits- und Moderationsfunktion.
Die Ergebnisse der Studie legen nahe, dass KI-gestützte Prompt-Revisionen in ihrer derzeitigen Form kein Allheilmittel sind. Sie könnten sogar die Fähigkeit der Nutzer beeinträchtigen, das volle Potenzial eines Modells auszuschöpfen, wenn sie nicht mit den Zielen des Endnutzers übereinstimmen.
Menschen prompten fortgeschrittene KI detaillierter
In dem Experiment wurde jeder Teilnehmer nach dem Zufallsprinzip einem von drei Text-zu-Bild-Modellen zugeordnet: DALL-E 2, dem leistungsfähigeren DALL-E 3 oder einer Version von DALL-E 3 mit automatischer Prompt-Überarbeitung. Die Aufgabe bestand darin, in zehn aufeinander folgenden Versuchen Prompts zu schreiben, die ein Zielbild so genau wie möglich reproduzierten.
Die Ergebnisse zeigten eine bessere Leistung von DALL-E 3 im Vergleich zu DALL-E 2 und einen signifikanten Unterschied in der Ähnlichkeit der generierten Bilder mit den Zielbildern.
Die Forscher identifizierten zwei Hauptgründe für die Leistungsunterschiede zwischen DALL-E 2 und DALL-E 3: zum einen die verbesserten technischen Möglichkeiten von DALL-E 3 und zum anderen die Anpassung der Prompting-Strategien durch die Benutzer. Interessanterweise schrieben die Benutzer von DALL-E 3 längere Prompts mit größerer semantischer Ähnlichkeit und mehr beschreibenden Wörtern, obwohl sie nicht wussten, welches Modell sie verwendeten.
Die Forscher vermuten, dass sich mit der Weiterentwicklung der Modelle ein Wechselspiel entwickeln könnte: Während die Modelle besser werden, passen die Menschen ihre Prompts kontinuierlich an, um die Fähigkeiten des neuesten Modells optimal zu nutzen. Dies deutet darauf hin, dass neuere Modelle das Prompting nicht überflüssig machen werden. Vielmehr wird das Prompting der Mechanismus sein, mit dem die Menschen die Fähigkeiten der neuen Modelle erschließen.