Anzeige
Skip to content
Read full article about: Wie Googles KI-Bildmodell "Nano Banana" zu seinem seltsamen Namen kam

Googles "Nano Banana"-Bildmodell ist mit Abstand das derzeit mächtigste Bildmodell am Markt. Aber der Name ist seltsam. Laut Wall Street Journal entstand er zufällig um 2:30 Uhr nachts, als Projektmanagerin Naina Raisinghani einen Namen für den Upload auf die Benchmark-Plattform LM Arena brauchte. Niemand war erreichbar, also kombinierte sie einfach zwei Spitznamen, die Freunde ihr gegeben hatten: Nano und Banana. Innerhalb weniger Tage erreichte das Tool den Spitzenplatz in den Leistungsrankings und wurde zum Social-Media-Trend. Der KI-Modell-Name "Gemini" hat im Vergleich eine etwas seriösere Herkunft.

via WSJ

Noch eine Anekdote aus dem WSJ-Bericht: Ausgerechnet ein OpenAI-Forscher soll dafür gesorgt haben, dass Google-Mitgründer Sergey Brin aus dem Ruhestand zurückkehrte und Googles KI-Ambitionen vorantrieb. Daniel Selsam fragte ihn auf einer Party, warum er angesichts von ChatGPT nicht Vollzeit an KI arbeite.

Read full article about: Alibabas neues offenes Qwen-Bildmodell soll deutlich natürlichere Bilder generieren

Alibaba hat Qwen-Image-2512 veröffentlicht, ein Update seines Text-zu-Bild-Modells. Das Modell erzeugt laut Alibaba realistischere Bilder von Menschen, mit mehr Gesichtsdetails und weniger künstlichem Aussehen.

Das Bildmodell-Update soll den "Plastik"-Look des Vorgängermodells ablegen. | Bild: Qwen

Zusätzlich verbessert sich die Darstellung von Text in Bildern, etwa bei Infografiken oder Präsentationen. Auch Landschaften, Tierfell und andere natürliche Elemente werden feiner dargestellt.

Auch beim Text-Rendering soll das neue Qwen-Modell bessere Ergebnisse erzielen. | Bild: Qwen

In mehr als 10 000 Blindtests auf der Alibaba-Plattform AI Arena erreichte Qwen-Image-2512 den vierten Platz und ist damit laut Alibaba das stärkste Open-Source-Modell in diesem Bereich. Es konkurriert mit offenen Modellen wie HunyuanImage-3.0, Z-image oder Flux.2.

Qwen-Image-2512 ist auf Hugging Face und ModelScope verfügbar und kann über Qwen Chat getestet werden. Weitere Informationen bieten der Tech Report und der Blog.

Read full article about: Qwen verbessert Bildbearbeitungsmodell für höhere Konsistenz bei Personen

Qwen verbessert sein kürzlich veröffentlichtes Bildbearbeitungsmodell. Das chinesische KI-Unternehmen hat Qwen-Image-Edit-2511 auf Hugging Face veröffentlicht, eine erweiterte Version des Vorgängers Qwen-Image-Edit-2509. Die wichtigste Neuerung ist eine stark verbesserte Konsistenz bei der Bearbeitung von Personen. Das Modell kann laut Qwen nun kreative Änderungen an Porträts vornehmen und dabei die Identität der abgebildeten Person besser bewahren. Auch Gruppenfotos mit mehreren Personen lassen sich jetzt besser bearbeiten.

Qwen

Weitere Verbesserungen betreffen die Lichtsteuerung, neue Blickwinkel, industrielles Produktdesign und geometrische Berechnungen. Qwen hat zudem beliebte LoRAs (kleine Zusatzmodelle) aus der Community direkt ins Basismodell eingebaut. Das Modell steht unter der Apache-2.0-Lizenz zur Verfügung. Eine Demo ist auf Hugging Face abrufbar, das Modell kann auch über Qwen Chat kostenlos getestet werden.

Read full article about: Neues KI-Modell von Alibaba macht statische Bilder nachträglich editierbar

Alibabas KI-Einheit Qwen hat ein neues Bild-Editierungsmodell veröffentlicht. Qwen-Image-Layered zerlegt Bilder in mehrere einzelne Ebenen mit transparentem Hintergrund (RGBA-Ebenen). Jede Ebene kann dann unabhängig bearbeitet werden, ohne andere Bildinhalte zu beeinflussen.

Das Modell ermöglicht einfache Bearbeitungen wie Größenänderung, Neupositionierung und Farbänderung einzelner Elemente. Nutzer können etwa den Hintergrund umfärben, Personen austauschen, Texte ändern oder Objekte löschen, verschieben und vergrößern.

Ein Bild kann wahlweise in 3 oder 8 Ebenen zerlegt werden. Zudem lässt sich die Zerlegung beliebig oft wiederholen – jede Ebene kann erneut in weitere Ebenen aufgeteilt werden. Das Qwen-Team bezeichnet den Ansatz als Brücke zwischen normalen Bildern und strukturierten, bearbeitbaren Darstellungen.

Das Qwen-Team stellt den Code bereit. Die Modelle sind auf Hugging Face und ModelScope verfügbar. Weitere Infos liefern der Blog sowie der technische Bericht. Wer es testen will, findet Demos auf Hugging Face und ModelScope.

Open-Source-Modell LongCat zeigt: Gute Bild-KI geht auch ohne Parameter-Flut

LongCat-Image zeigt, wie viel Bildqualität und Textpräzision Meituan aus nur 6 Milliarden Parametern herausholt. Statt stumpfer Skalierung setzen die Entwickler auf saubere Daten, clevere Architektur und eine ungewöhnlich genaue Textkodierung. Das Ergebnis wirkt wie ein kleiner, aber sehr gezielter Gegenentwurf zum „größer ist besser“-Trend.

Read full article about: Ein Kinderbuch zeigt das Dilemma der kommerziellen Nutzung von KI-Bild-Generatoren 

Der Unternehmer Niels Hoven veröffentlichte ein Alphabetbuch mit fast 1000 KI-Illustrationen – aus seiner Sicht zu aufwendig für menschliche Künstler. Bei etwa zwei Stunden pro Bild hätte die Produktion rund 50.000 Dollar gekostet. In sozialen Medien und Amazon-Kommentaren gab es für diese Entscheidung Kritik.

Der Streit um KI-Bildgeneratoren, ausgedrückt in einem Screenshot. Laut jüngster Rechtsprechung aus UK ist KI-Datentraining keine Copyright-Verletzung. | via X

Hoven verteidigt sich: Ohne KI hätte das Hardcover rund 200 Dollar kosten müssen. Dank generativer KI könne das Buch als kostenloses PDF erscheinen und für 30 Dollar als Hardcover verkauft werden. Laut Hoven gehe der gesamte Betrag an Amazon für Druck und Versand, er selbst verdiene daran nichts. Das Buch sei ohne KI nicht möglich gewesen und solle Kindern beim Lesenlernen helfen. Zur Wahrheit gehört auch, dass es Werbung für sein Unternehmen ist, das eine entsprechende Lern-App vertreibt.