Anzeige
Skip to content

Black Forest Labs veröffentlicht Bildmodell Flux 2 mit Multi-Referenz-Funktion

Image description
Flux2 prompted by by BFL

Kurz & Knapp

  • Black Forest Labs bringt mit Flux 2 eine neue Modellfamilie für Bildgenerierung auf den Markt, die hochauflösende Bilder bis zu vier Megapixeln erzeugt.
  • Nutzer können bis zu zehn Referenzbilder für konsistente Charaktere, Produkte oder Stile einbinden; zudem wurde die Textdarstellung verbessert.
  • Die Flux 2-Familie bietet vier Varianten: ein Spitzenmodell, eine Entwickler-Version, ein Open-Weights-Modell und ein bald erscheinendes effizientes Open-Source-Modell.

Black Forest Labs stellt mit Flux 2 eine neue Modellfamilie für die Bildgenerierung vor. Die Modelle unterstützen hochauflösende Bilder bis zu vier Megapixeln, verarbeiten mehrere Referenzbilder gleichzeitig und setzen auf eine hybride Architektur mit einem Vision-Language-Model.

Die Modellfamilie umfasst Varianten für unterschiedliche Einsatzzwecke, von reinen API-Lösungen bis zu offenen Gewichten für Entwickler. Eine der zentralen Neuerungen ist laut Hersteller der "Multi-Reference Support".

Nutzer können bis zu zehn Referenzbilder gleichzeitig als Input geben, um Konsistenz bei Charakteren, Produkten oder Stilen zu gewährleisten. Zudem unterstützt Flux 2 die Generierung und Bearbeitung von Bildern mit einer Auflösung von bis zu vier Megapixeln.

Alle Varianten von Flux 2 bieten Bildbearbeitung auf Basis von Text und mehreren Referenzen in einem Modell. | Bild: Black Forest Labs

Auch die Textdarstellung wurde überarbeitet: Komplexe Typografie, Infografiken und UI-Mockups sollen nun zuverlässig generiert werden können. Black Forest Labs verspricht darüber hinaus eine verbesserte Befolgung von Prompts, insbesondere bei strukturierten Anweisungen und kompositorischen Einschränkungen.

Anzeige
DEC_D_Incontent-1

Hybride Architektur mit Mistral-Vision-Language-Modell

Technisch setzt Flux 2 auf eine Kombination aus zwei Bausteinen: Ein Sprach-Bild-Modell ("Mistral-3 24B") versteht, was in Text und Bildern gemeint ist, während ein zweiter Teil des Modells ("Rectified Flow Transformer") dafür sorgt, dass das Bild logisch aufgebaut ist und die gewünschten Details wie Formen oder Materialien stimmen.

Zusätzlich gibt es einen speziellen Bild-Encoder (VAE), der hilft, Bilder effizient und in hoher Qualität zu speichern und wiederherzustellen. Diese Bausteine arbeiten zusammen, damit Flux 2 sowohl neue Bilder erzeugen als auch bestehende Bilder bearbeiten kann. Ein technischer Bericht dazu ist hier verfügbar.

Kosten‑Leistungs‑Vergleich: Die Flux 2‑Varianten von Black Forest Labs erzielen hohe ELO‑Scores bei niedrigen Inferenzkosten. BFL positioniert das Modell als günstige Alternative zu Googles Bild-Banane. | Bild: BFL

Vier Modellvarianten für unterschiedliche Nutzer

Die Flux 2-Familie gliedert sich in vier Hauptmodelle, die unterschiedliche Balanceakte zwischen Leistung und Kontrollmöglichkeiten vollziehen:

  • Flux 2 [pro]: Das Spitzenmodell soll eine Bildqualität auf dem Niveau der besten geschlossenen Modelle bieten. Es ist ab sofort über den BFL Playground, die BFL API und via Launch-Partner verfügbar.
  • Flux 2 [flex]: Diese Variante richtet sich an Entwickler, die Parameter wie die Anzahl der Schritte und die Guidance Scale selbst steuern wollen, um Geschwindigkeit und Qualität abzuwägen. Auch dieses Modell steht via Playground und API bereit.
  • Flux 2 [dev]: Ein 32-Milliarden-Parameter-Modell mit offenen Gewichten (Open-Weights). Es kombiniert Text-zu-Bild-Synthese und Bildbearbeitung in einem Checkpoint. Die Gewichte sind auf Hugging Face verfügbar, der Referenz-Code auf GitHub. Für die lokale Ausführung auf Consumer-Grafikkarten wie der GeForce RTX-Serie existiert eine optimierte fp8-Implementierung, die in Zusammenarbeit mit NVIDIA und ComfyUI erstellt wurde. Zudem ist das Modell über diverse API-Anbieter wie FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare und DeepInfra nutzbar. Für die kommerzielle Nutzung ist eine Lizenz über die Webseite erforderlich.
  • Flux 2 [klein]: Ein noch nicht veröffentlichtes ("coming soon"), destilliertes Modell, das unter der Apache 2.0 Lizenz als Open Source erscheinen soll. Es soll effizienter sein als vergleichbare Modelle gleicher Größe. Interessierte können sich für die Beta anmelden.

Zugegeben, es ist nicht leicht eine Woche nach dem wohl wichtigsten Bildmodell der letzten Jahre zu erscheinen, Nano Banana Pro. Aber Flux 2 schlägt sich bei meinem sehr komplexten Testprompt im Vergleich ordentlich.

Anzeige
DEC_D_Incontent-2

A hyper-realistic DSLR photo. A monkey holding a pink banana is sitting on a tiger in the foreground. In the background, a HORSE is RIDING AN ASTRONAUT. The astronaut is underneath like a living “spacesuit horse saddle,” and the HORSE is clearly on top, in control, as the rider. Make it 100% unambiguous: the HORSE is the rider and the ASTRONAUT is being ridden, NOT the other way around. High-resolution, sharp focus, realistic lighting.

Flux 2 prompted by THE DECODER / Bestes Bild aus zwei Generierungen
NBPro prompted by THE DECODER / Bestes Bild aus zwei Generierungen
Sora prompted by THE DECODER / Bestes Bild aus zwei Generierungen
Midjourney prompted by THE DECODER / Bestes Bild aus vier Generierungen

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar“‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Quelle: BFL