Inhalt
newsletter Newsletter
DEEP MINDS Podcast
Podcast über Künstliche Intelligenz und Wissenschaft
Bewusstsein, Kognition und Künstliche Intelligenz | DEEP MINDS #10

OpenAIs DALL-E 2 schafft beeindruckende Bilder, doch perfekt ist die Bildmaschine nicht. Erste Experimente zeigen die Grenzen des KI-Systems auf.

Vor wenigen Wochen zeigte OpenAI die beeindruckenden Fähigkeiten von DALL-E 2. Das multimodale KI-Modell setzt einen neuen Standard bei KI-generierten Bildern: Aus teilweise komplexen Textbeschreibungen generiert DALL-E 2 Bilder in verschiedenen Stilen, vom Ölgemälde bis hin zum Fotorealismus.

OpenAI-Chef Sam Altman sieht in DALL-E 2 ein „frühes Beispiel für die Auswirkungen von KI auf den Arbeitsmarkt“. Vor einer Dekade seien körperliche und kognitive Arbeit als erste Opfer der KI-Systeme ausgemacht worden – kreative Arbeit dagegen als letztes Ziel. „Jetzt sieht es so aus, als würde es in umgekehrter Reihenfolge ablaufen“, so Altman.

OpenAIs DALL-E 2 macht Fehler

In der wissenschaftlichen Veröffentlichung, die die Vorstellung von DALL-E 2 begleitete, zeigt OpenAI einige Einschränkungen des Systems. So testeten die Forschenden DALL-Es Fähigkeit zur Kompositionalität, also dem sinnvollen Zusammenführen von mehreren Objekteigenschaften, etwa Farbe, Form und Positionierung im Bild.

Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung

In den Tests zeigt sich, dass DALL-E 2 die in den Beschreibungen gegebenen logischen Zusammenhänge nicht versteht und daher etwa farbige Würfel falsch anordnet. Die folgenden Motive zeigen DALL-Es Versuch, einen roten auf einem blauen Würfel darzustellen.

DALL-E 2 soll einen roten Würfel auf einem blauen darstellen. Das System versagt. | Bild: OpenAI

Mittlerweile erhielten einige Bewerber:innen Zugang zum geschlossenen Beta-Test des Systems und zeigen weitere Einschränkungen von DALL-E 2 auf.

Twitter-Nutzer Benjamin Hilton berichtet in einem entsprechenden Thread etwa, dass er für ein gutes Ergebnis oft zahlreiche Eingabevarianten benötige. Als Beispiel liefert er ein Bild zur Eingabe „A renaissance-style painting of a modern supermarket aisle. In the aisle is a crowd of shoppers with shopping trolleys trying to get reduced items“.

Zwar sind Einkaufswagen und Kund:innen zu sehen, doch der Supermarkt wirkt alles andere als modern. Auch in anderen Fällen käme es zu Missverständnissen, etwa wenn das englische Wort „operated“ nicht als „bedient“, sondern als „operiert“ im medizinischen Sinne verarbeitet wird.

Empfehlung

In manchen Fällen erzeugten komplexe Eingaben keinerlei sinnvolle Ergebnisse. Als Beispiel nennt Hilton die Beschreibung „Two dogs dressed like roman soldiers on a pirate ship looking at New York City through a spyglass“.

DALL-E 2 vermischt Konzepte

In einigen Fällen vermischt DALL-E 2 außerdem Konzepte: In einem Bild sollen ein Skelett und ein Mönch zusammensitzen, doch der Mönch sieht auch nach mehrfachen Versuchen immer noch ziemlich knochig aus.

Anzeige
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Schwierigkeiten habe DALL-E 2 zudem mit Gesichtern, kohärenten Plänen, etwa einem Lageplan oder einem Labyrinth und mit Text. Mit Negationen könne das System überhaupt nicht umgehen: Eine Eingabe wie „Ein Raumschiff ohne Apfel“ erzeuge ein Raumschiff mit Apfel.

Äpfel selbst kann DALL-E 2 übrigens hervorragend darstellen – nur beim Zählen nimmt das System es nicht so genau und zählt nur bis vier exakt.

Wer mehr über DALL-E 2 und potenzielle Auswirkungen erfahren will, kann sich unseren MIXEDCAST #296 anhören oder anschauen: Wir besprechen, wie DALL-E 2 funktioniert, welche Anwendungsfälle es gibt und wie sich das System auf den Arbeitsmarkt auswirken könnte.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!