Inhalt
summary Zusammenfassung

Googles Gemini-Modelle sind von Grund auf multimodal trainiert, verstehen also auch Bilder - und können sie generieren. Das soll zu präziseren Bildausgaben führen als bei klassischen Bildmodellen.

Anzeige

Google macht die native Bildgenerierung in seinem Sprachmodell Gemini 2.0 Flash (gemini-2.0-flash-exp) für Entwickler zugänglich. Laut einem Blogbeitrag des Unternehmens können Entwickler die Funktion ab sofort über Google AI Studio und die Gemini API in allen unterstützten Regionen testen.

Die Bildgenerierung lässt sich über wenige Zeilen Code in Anwendungen integrieren. Google stellt dafür eine experimentelle Version von Gemini 2.0 Flash bereit.

Native LML-Generierung soll präziser und konsistenter sein

Das Besondere an Geminis Bildgenerierung ist der multimodale Ansatz: Das LML (Large Multimodal Model) kombiniert Textverstehen, verbessertes Reasoning und multimodale Eingaben, um präzisere Bilder zu erzeugen als klassische Bildgenerierungsmodelle.

Anzeige
Anzeige
Die Präzision der Prompt-Umsetzung ist teils beeindruckend. | Bild: Gemini 2.0 Flash Exp prompted by THE DECODER
Es scheitert jedoch noch immer am "Pferd reitet auf Astronaut"-Test; zu ungewöhnlich ist das Motiv. Ein Mensch könnte sich das jedoch problemlos vorstellen. | Bild: Gemini 2.0 Flash Exp prompted by THE DECODER

Google hebt vier zentrale Anwendungsfälle hervor: Erstens kann das Modell Text und Bilder für Storytelling kombinieren, wobei es Charaktere und Settings über mehrere Bilder hinweg konsistent darstellt.

Zweitens ermöglicht es konversationelle Bildbearbeitung über mehrere Dialogschritte. Dies eigne sich besonders für iterative Verbesserungen, wobei der Kontext über mehrere Gesprächsrunden hinweg erhalten bleibt.

Video: via Oriol Vinyals

Die dritte Stärke ist laut Google das dem LLM antrainierte Weltwissen, das helfen soll, realistische und akkurate Bilder zu erstellen - etwa für Rezeptillustrationen. Google betont jedoch, dass das Wissen des Modells breit, aber nicht absolut sei.

Als vierte Fähigkeit hebt Google die präzise Textdarstellung in Bildern hervor. Interne Benchmarks zeigen demnach bessere Ergebnisse bei der Textintegration als führende Wettbewerbsmodelle.

Empfehlung

OpenAI könnte bald nachziehen

Bereits im Mai 2024 hatte OpenAI mit seinem GPT-4o-Modell ähnliche Bildgenerierungsfähigkeiten demonstriert. Damals zeigte OpenAI, dass GPT-4o, ebenfalls ein natives multimodales KI-Modell, das Text, Audio, Bild und Video als Eingabe verarbeiten und Text, Audio sowie Bilder ausgeben kann.

Zu den vorgeführten Fähigkeiten gehörten visuelle Erzählungen, detaillierte Charakterdesigns, kreative Typografie und realistische 3D-Renderings. Allerdings hat OpenAI diese Funktionen bislang nicht öffentlich verfügbar gemacht. Gerüchten zufolge könnte OpenAI, möglicherweise auch als Reaktion auf Googles Vorstoß, noch im März 2025 nachziehen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google veröffentlicht für Entwickler eine experimentelle Version des KI-Modells Gemini 2.0 Flash, das Texte versteht und direkt Bilder erzeugen kann.
  • Das Besondere an Gemini ist, dass es gleichzeitig Texte liest, Inhalte logisch verarbeitet und Bilder analysiert, wodurch es genauere und realistischere Bilder erstellen soll als ein reines Bildmodell.
  • Google hebt besonders hervor, dass Gemini Figuren und Szenen über mehrere Bilder hinweg konsistent darstellen und Text präzise in Bildern integrieren kann.
Quellen
Online-Journalist Matthias ist Gründer und Herausgeber von THE DECODER. Er ist davon überzeugt, dass Künstliche Intelligenz die Beziehung zwischen Mensch und Computer grundlegend verändern wird.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!