Bild-KI Archive

8. März 2026

Luma AI Uni-1: Neues Bildmodell vereint Bildverständnis und Bilderzeugung

Luma AI fordert mit Uni-1 OpenAI und Google heraus: Das neue Modell vereint Bildverständnis und Bilderzeugung in einer Architektur und denkt beim Generieren mit.

Vollständigen Artikel lesen

Kommentieren

Matthias Bastian

26. Februar 2026

Praxis

Googles Nano Banana 2 soll Pro-Qualität für den halben Preis bieten

Matthias Bastian

14. Januar 2026

KI Pro

Die neue ChatGPT-Bildgenerierung vs. Googles Nano Banana Pro

Matthias Bastian

7. Januar 2026

Short News

Googles "Nano Banana"-Bildmodell ist mit Abstand das derzeit mächtigste Bildmodell am Markt. Aber der Name ist seltsam. Laut Wall Street Journal entstand er zufällig um 2:30 Uhr nachts, als Projektmanagerin Naina Raisinghani einen Namen für den Upload auf die Benchmark-Plattform LM Arena brauchte. Niemand war erreichbar, also kombinierte sie einfach zwei Spitznamen, die Freunde ihr gegeben hatten: Nano und Banana. Innerhalb weniger Tage erreichte das Tool den Spitzenplatz in den Leistungsrankings und wurde zum Social-Media-Trend. Der KI-Modell-Name "Gemini" hat im Vergleich eine etwas seriösere Herkunft.

Noch eine Anekdote aus dem WSJ-Bericht: Ausgerechnet ein OpenAI-Forscher soll dafür gesorgt haben, dass Google-Mitgründer Sergey Brin aus dem Ruhestand zurückkehrte und Googles KI-Ambitionen vorantrieb. Daniel Selsam fragte ihn auf einer Party, warum er angesichts von ChatGPT nicht Vollzeit an KI arbeite.

Kommentieren Quelle: Wall Street Journal

Matthias Bastian

31. Dezember 2025

Short News

Alibaba hat Qwen-Image-2512 veröffentlicht, ein Update seines Text-zu-Bild-Modells. Das Modell erzeugt laut Alibaba realistischere Bilder von Menschen, mit mehr Gesichtsdetails und weniger künstlichem Aussehen.

Das Bildmodell-Update soll den "Plastik"-Look des Vorgängermodells ablegen. | Bild: Qwen

Zusätzlich verbessert sich die Darstellung von Text in Bildern, etwa bei Infografiken oder Präsentationen. Auch Landschaften, Tierfell und andere natürliche Elemente werden feiner dargestellt.

Auch beim Text-Rendering soll das neue Qwen-Modell bessere Ergebnisse erzielen. | Bild: Qwen

In mehr als 10 000 Blindtests auf der Alibaba-Plattform AI Arena erreichte Qwen-Image-2512 den vierten Platz und ist damit laut Alibaba das stärkste Open-Source-Modell in diesem Bereich. Es konkurriert mit offenen Modellen wie HunyuanImage-3.0, Z-image oder Flux.2.

Qwen-Image-2512 ist auf Hugging Face und ModelScope verfügbar und kann über Qwen Chat getestet werden. Weitere Informationen bieten der Tech Report und der Blog.

Kommentieren Quelle: Hugging Face / Qwen-Image-2512 | ModelScope / Qwen-Image-2512 | Qwen Chat / Demo | Qwen / Tech Report | Qwen / Blog

Matthias Bastian

24. Dezember 2025

Short News

Qwen verbessert sein kürzlich veröffentlichtes Bildbearbeitungsmodell. Das chinesische KI-Unternehmen hat Qwen-Image-Edit-2511 auf Hugging Face veröffentlicht, eine erweiterte Version des Vorgängers Qwen-Image-Edit-2509. Die wichtigste Neuerung ist eine stark verbesserte Konsistenz bei der Bearbeitung von Personen. Das Modell kann laut Qwen nun kreative Änderungen an Porträts vornehmen und dabei die Identität der abgebildeten Person besser bewahren. Auch Gruppenfotos mit mehreren Personen lassen sich jetzt besser bearbeiten.

Weitere Verbesserungen betreffen die Lichtsteuerung, neue Blickwinkel, industrielles Produktdesign und geometrische Berechnungen. Qwen hat zudem beliebte LoRAs (kleine Zusatzmodelle) aus der Community direkt ins Basismodell eingebaut. Das Modell steht unter der Apache-2.0-Lizenz zur Verfügung. Eine Demo ist auf Hugging Face abrufbar, das Modell kann auch über Qwen Chat kostenlos getestet werden.

Kommentieren Quelle: Hugging Face

Matthias Bastian

21. Dezember 2025

Short News

Alibabas KI-Einheit Qwen hat ein neues Bild-Editierungsmodell veröffentlicht. Qwen-Image-Layered zerlegt Bilder in mehrere einzelne Ebenen mit transparentem Hintergrund (RGBA-Ebenen). Jede Ebene kann dann unabhängig bearbeitet werden, ohne andere Bildinhalte zu beeinflussen.

Das Modell ermöglicht einfache Bearbeitungen wie Größenänderung, Neupositionierung und Farbänderung einzelner Elemente. Nutzer können etwa den Hintergrund umfärben, Personen austauschen, Texte ändern oder Objekte löschen, verschieben und vergrößern.

Ein Bild kann wahlweise in 3 oder 8 Ebenen zerlegt werden. Zudem lässt sich die Zerlegung beliebig oft wiederholen – jede Ebene kann erneut in weitere Ebenen aufgeteilt werden. Das Qwen-Team bezeichnet den Ansatz als Brücke zwischen normalen Bildern und strukturierten, bearbeitbaren Darstellungen.

Das Qwen-Team stellt den Code bereit. Die Modelle sind auf Hugging Face und ModelScope verfügbar. Weitere Infos liefern der Blog sowie der technische Bericht. Wer es testen will, findet Demos auf Hugging Face und ModelScope.

Kommentieren Quelle: Blog

Jonathan Kemper

14. Dezember 2025

Praxis

Open-Source-Modell LongCat zeigt: Gute Bild-KI geht auch ohne Parameter-Flut

LongCat-Image zeigt, wie viel Bildqualität und Textpräzision Meituan aus nur 6 Milliarden Parametern herausholt. Statt stumpfer Skalierung setzen die Entwickler auf saubere Daten, clevere Architektur und eine ungewöhnlich genaue Textkodierung. Das Ergebnis wirkt wie ein kleiner, aber sehr gezielter Gegenentwurf zum „größer ist besser“-Trend.

Vollständigen Artikel lesen

Kommentieren

Matthias Bastian

3. Dezember 2025

KI Pro

Erklärvideo: Einstieg ins Bild-Prompting - was könnt ihr beachten?

Matthias Bastian

9. November 2025

Short News

Der Unternehmer Niels Hoven veröffentlichte ein Alphabetbuch mit fast 1000 KI-Illustrationen – aus seiner Sicht zu aufwendig für menschliche Künstler. Bei etwa zwei Stunden pro Bild hätte die Produktion rund 50.000 Dollar gekostet. In sozialen Medien und Amazon-Kommentaren gab es für diese Entscheidung Kritik.

Der Streit um KI-Bildgeneratoren, ausgedrückt in einem Screenshot. Laut jüngster Rechtsprechung aus UK ist KI-Datentraining keine Copyright-Verletzung. | via X

Hoven verteidigt sich: Ohne KI hätte das Hardcover rund 200 Dollar kosten müssen. Dank generativer KI könne das Buch als kostenloses PDF erscheinen und für 30 Dollar als Hardcover verkauft werden. Laut Hoven gehe der gesamte Betrag an Amazon für Druck und Versand, er selbst verdiene daran nichts. Das Buch sei ohne KI nicht möglich gewesen und solle Kindern beim Lesenlernen helfen. Zur Wahrheit gehört auch, dass es Werbung für sein Unternehmen ist, das eine entsprechende Lern-App vertreibt.

Kommentieren