Inhalt
summary Zusammenfassung

Eine neue Studie der University of California, Los Angeles zeigt: GPT-4o erzeugt zwar beeindruckende Bilder, scheitert jedoch bei Aufgaben, die echtes Bildverständnis, kontextuelles Denken und logisches Schlussfolgern verlangen.

Anzeige

Trotz beeindruckender Fortschritte bei der Bildqualität zeigt GPT-4o in zentralen Aspekten der Bildgenerierung gravierende Schwächen. Das ergibt eine neue empirische Untersuchung der University of California, Los Angeles. Die Forscher testeten das Modell systematisch entlang dreier Dimensionen: globale Instruktionsbefolgung, Bildbearbeitung und Schlussfolgerungen nach der Bildgenerierung.

Globale Regeln werden systematisch ignoriert

Im ersten Teil der Untersuchung sollte getestet werden, ob GPT-4o in der Lage ist, übergeordnete Regeln zu berücksichtigen, die vor der eigentlichen Bildanweisung gegeben wurden. Solche globalen Regeln sollten die Bedeutung von Begriffen im weiteren Verlauf verändern – zum Beispiel: „Wenn ich ‚links‘ sage, meine ich eigentlich ‚rechts‘.“ Danach erhielt das Modell einen Prompt wie: „Erzeuge ein Bild mit einem Hund auf der linken Seite.“ Wenn GPT-4o die Umkehrregel korrekt angewendet hätte, hätte der Hund auf der rechten Seite erscheinen müssen. Tatsächlich platzierte GPT-4o den Hund aber wie gewohnt auf der linken Seite – es ignorierte also die vorher definierte Bedeutungsänderung.

Ein ähnliches Verhalten zeigte sich bei Regeln zur Zahlenverarbeitung. Wenn das Modell beispielsweise angewiesen wurde, bei jeder Zahlenangabe „zwei abzuziehen“, erzeugte es dennoch genau die Menge, die im Prompt wörtlich genannt wurde – etwa fünf Vögel, obwohl laut Regel nur drei hätten dargestellt werden dürfen.

Anzeige
Anzeige

Diese Ergebnisse deuten darauf hin, dass GPT-4o solche übergeordneten Kontexte nicht zuverlässig in die Bildgenerierung einbezieht. Stattdessen folgt es den Begriffen im Prompt wörtlich – auch wenn zuvor festgelegt wurde, dass sie anders zu interpretieren sind.

Bild: Li, Zhang, Cui

Bildbearbeitung gelingt nur oberflächlich

Im zweiten Testabschnitt wurde GPT-4o mit Aufgaben zur Bildbearbeitung konfrontiert. So sollte das Modell beispielsweise nur die Spiegelung eines Pferdes in einem Gewässer in einen Löwen verwandeln – GPT-4o änderte jedoch sowohl Spiegelung als auch Originalobjekt. In einem anderen Fall sollte es lediglich sitzende Personen aus einem Bild entfernen, entfernte aber auch stehende Figuren im Hintergrund.

Diese Beispiele zeigen, dass GPT-4o Schwierigkeiten hat, semantisch präzise Modifikationen vorzunehmen. Lokalisierte Veränderungen, die eine differenzierte Interpretation der Bildinhalte erfordern, führen regelmäßig zu unbeabsichtigten Nebeneffekten.

Schlussfolgern bleibt problematisch

Besonders deutlich treten die Defizite bei Aufgaben zutage, die logisches Denken über mehrere Schritte erfordern. In einem Versuch wurde GPT-4o zunächst aufgefordert, ein Bild mit einem Hund und einer Katze zu erzeugen. Anschließend sollte es den Hund durch eine Katze ersetzen und das Bild an den Strand verlagern – aber nur, wenn im ursprünglichen Bild keine Katze vorhanden war. Obwohl die Katze im ersten Bild vorhanden war, führte GPT-4o dennoch beide Schritte aus.

Bild: Li, Zhang, Cui

Auch in weiteren Beispielen zeigte sich, dass GPT-4o Bedingungen nicht korrekt überprüft und logische Abhängigkeiten zwischen Eingabeaufforderungen nicht zuverlässig nachvollzieht. Damit fehlt dem Modell eine zentrale Fähigkeit, die für intelligentes Verhalten erforderlich wäre: die Fähigkeit zur kontextabhängigen Schlussfolgerung.

Empfehlung

Benchmark-Ergebnisse täuschen über Schwächen hinweg

Frühere Benchmark-Studien wie GPT-ImgEval bescheinigten GPT-4o gute Ergebnisse bei Text-Bild-Ausrichtung, Bildqualität und Stilkontrolle. Auch die Fähigkeit zu einfachen Bearbeitungen und zur kontrollierten Generierung wurde hervorgehoben. Die aktuelle Studie zeigt jedoch, dass diese Benchmarks wichtige Dimensionen nicht erfassen: etwa die Integration von Weltwissen, die Anwendung abstrakter Regeln oder die Fähigkeit zum logischen Denken über mehrere Schritte hinweg.

Die Autoren der neuen Studie fordern daher gezielte Benchmarks, die semantische Kohärenz und kontextuelles Verständnis in den Mittelpunkt stellen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Eine neue Studie der University of California, Los Angeles, zeigt, dass OpenAIs multimodales Modell GPT-4o bei der Bildgenerierung oft Texte wörtlich interpretiert und logischen Kontext ignoriert, obwohl es Fortschritte bei der Bildqualität gibt.
  • Die Forscher testeten GPT-4o in drei Bereichen: globale Instruktionsbefolgung, feingranulare Bildbearbeitung und Schlussfolgerungen nach der Bildgenerierung. Dabei zeigte sich, dass das Modell globale Regeln, semantische Umkehrungen und logische Bedingungen nicht berücksichtigt.
  • Die Ergebnisse widersprechen der Annahme, dass GPT-4o Bildverständnis und Bildgenerierung bereits vereint. Die Studie fordert daher neue Benchmarks, die über bloße Text-Bild-Ausrichtung hinausgehen und Kontextsensitivität sowie wissensgeleitete Generierung bewerten.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!