Inhalt
summary Zusammenfassung

Eine Studie der University of California, Berkeley, zeigt, dass die automatische Überarbeitung von Prompts durch ein großes Sprachmodell die Qualität der von DALL-E 3 generierten Bilder erheblich reduziert. Das könnte die Fähigkeit der Nutzer einschränken, das volle Potenzial des Modells auszuschöpfen.

Anzeige

Forscher der University of California, Berkeley, untersuchten in einem Online-Experiment mit 1.891 Teilnehmern, wie sich die automatische Prompt-Überarbeitung durch ein großes Sprachmodell (LLM) auf die Bildqualität von DALL-E 3 auswirkt.

Das Ergebnis: Die LLM-basierte Prompt-Überarbeitung reduzierte die Vorteile von DALL-E 3 gegenüber DALL-E 2 um fast 58 Prozent.

Zwar erzielten die Nutzer von DALL-E 3 mit Prompt-Überarbeitung bessere Ergebnisse als jene mit DALL-E 2. Der positive Effekt war jedoch geringer, als wenn die für DALL-E 2 geschriebenen Prompts direkt an DALL-E 3 übergeben wurden. OpenAI verwendet das Prompt-Umschreiben durch ChatGPT auch als Sicherheits- und Moderationsfunktion.

Anzeige
Anzeige

Die Ergebnisse der Studie legen nahe, dass KI-gestützte Prompt-Revisionen in ihrer derzeitigen Form kein Allheilmittel sind. Sie könnten sogar die Fähigkeit der Nutzer beeinträchtigen, das volle Potenzial eines Modells auszuschöpfen, wenn sie nicht mit den Zielen des Endnutzers übereinstimmen.

Menschen prompten fortgeschrittene KI detaillierter

In dem Experiment wurde jeder Teilnehmer nach dem Zufallsprinzip einem von drei Text-zu-Bild-Modellen zugeordnet: DALL-E 2, dem leistungsfähigeren DALL-E 3 oder einer Version von DALL-E 3 mit automatischer Prompt-Überarbeitung. Die Aufgabe bestand darin, in zehn aufeinander folgenden Versuchen Prompts zu schreiben, die ein Zielbild so genau wie möglich reproduzierten.

In dem Experiment mussten Teilnehmende per Prompt ein Zielbild möglichst genau nachbilden.
In dem Experiment mussten Teilnehmende per Prompt ein Zielbild möglichst genau nachbilden. | Bild: Jahani et al.

Die Ergebnisse zeigten eine bessere Leistung von DALL-E 3 im Vergleich zu DALL-E 2 und einen signifikanten Unterschied in der Ähnlichkeit der generierten Bilder mit den Zielbildern.

Die Forscher identifizierten zwei Hauptgründe für die Leistungsunterschiede zwischen DALL-E 2 und DALL-E 3: zum einen die verbesserten technischen Möglichkeiten von DALL-E 3 und zum anderen die Anpassung der Prompting-Strategien durch die Benutzer. Interessanterweise schrieben die Benutzer von DALL-E 3 längere Prompts mit größerer semantischer Ähnlichkeit und mehr beschreibenden Wörtern, obwohl sie nicht wussten, welches Modell sie verwendeten.

Die Forscher vermuten, dass sich mit der Weiterentwicklung der Modelle ein Wechselspiel entwickeln könnte: Während die Modelle besser werden, passen die Menschen ihre Prompts kontinuierlich an, um die Fähigkeiten des neuesten Modells optimal zu nutzen. Dies deutet darauf hin, dass neuere Modelle das Prompting nicht überflüssig machen werden. Vielmehr wird das Prompting der Mechanismus sein, mit dem die Menschen die Fähigkeiten der neuen Modelle erschließen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Empfehlung
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine Studie der University of California, Berkeley zeigt, dass die automatische Überarbeitung von Prompts durch ein großes Sprachmodell die Qualität der von DALL-E 3 generierten Bilder um fast 58 Prozent reduziert im Vergleich zur direkten Verwendung der für DALL-E 2 geschriebenen Prompts.
  • In einem Experiment mit 1.891 Teilnehmern erzielten Nutzer von DALL-E 3 bessere Ergebnisse als jene mit DALL-E 2, aber der Vorteil war geringer, wenn die Prompts automatisch überarbeitet wurden. Dies deutet darauf hin, dass KI-gestützte Prompt-Revisionen die Fähigkeit der Nutzer beeinträchtigen könnten, das volle Potenzial eines Modells auszuschöpfen.
  • Die Forscher identifizierten zwei Hauptgründe für die Leistungsunterschiede zwischen DALL-E 2 und DALL-E 3: verbesserte technische Möglichkeiten und angepasste Prompting-Strategien der Benutzer. Mit der Weiterentwicklung der Modelle könnte sich ein Wechselspiel entwickeln, bei dem Menschen ihre Prompts kontinuierlich anpassen, um die Fähigkeiten des neuesten Modells optimal zu nutzen.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!