Inhalt
summary Zusammenfassung

Forschende der Beijing Academy of Artificial Intelligence haben OmniGen 2 vorgestellt, ein Open-Source-Modell für Text-zu-Bild-Generation, Bildbearbeitung und kontextuelle Generierung.

Anzeige

Im Gegensatz zum im November 2024 veröffentlichten Vorgänger OmniGen verwendet OmniGen2 zwei getrennte Dekodierungspfade für Texte und Bilder mit ungeteilten Parametern und einem entkoppelten Bildtokenizer. Diese Architektur ermöglicht es dem Modell laut den Wissenschaftler:innen, auf bestehenden multimodalen Verständnismodellen aufzubauen, ohne deren ursprüngliche Textgenerierungsfähigkeiten zu beeinträchtigen.

Collage surrealer Motive: Weltraumtreppe, Fantasy-Helden, Naturpanoramen, leuchtende Objekte und Portraits.
OmniGen 2 scheint vielfältige Prompts in unterschiedlichen Stilen gut zu beherrschen. Fotorealistische Motive wirken jedoch etwas weichgezeichnet. | Bild: Wu et al.

Das System basiert auf einem multimodalen Large Language Model (MLLM) mit einem Qwen2.5-VL-3B-Transformer als Grundlage. Für die Bildgenerierung kommt ein spezieller Diffusion Transformer mit etwa vier Milliarden Parametern zum Einsatz. Ein spezielles Token "<|img|>" signalisiert dem System, wann es von der Textgenerierung zur Bildgenerierung wechseln soll.

Architekturdiagramm: Auto-Regressive Transformer verarbeitet Text- und Bild-Tokens, liefert Hidden States für einen Diffusions-Transformer mit VAE und Refiner-Modulen.
OmniGen 2 nutzt getrennte Decoding-Pfade: einen autoregressiven Transformer für Text und einen Diffusion Transformer für die Bildgenerierung, um Sprachfähigkeiten zu erhalten und gleichzeitig hochwertige Bilder zu erzeugen. | Bild: Wu et al.

Beim Training verwendeten die Wissenschaftler:innen etwa 140 Millionen Bilder aus verschiedenen Open-Source-Datensätzen und eigenen Sammlungen. Zusätzlich entwickelten sie spezielle Verfahren, die Videomaterial nutzen, um bessere Trainingsdaten zu erstellen.

Anzeige
Anzeige

Um die Bildbearbeitungsfähigkeiten zu verbessern, extrahiert das System zwei ähnliche Bilder aus Videos - etwa ein Gesicht mit und ohne Lächeln - und lässt dann ein Sprachmodell eine passende Bearbeitungsanweisung formulieren.

KI-Bildbearbeitung: neun Beispiele für Stil, Farbe, Extraktion, Hinzufügen, Ersetzen, Mimik, Entfernen, Bewegung und Hintergrund.
Mit OmniGen 2 können Nutzer:innen auch nur lokale Anpassungen vornehmen, anstatt das Bild vollständig neu zu generieren. | Bild: Wu et al.

Für die kontextuelle Generierung verfolgt OmniGen 2 Personen oder Objekte durch mehrere Video-Frames, um zu lernen, wie dasselbe Motiv in verschiedenen Situationen aussieht.

Collage: neun KI-Bildbearbeitungen mit Objektdesign, Szenencompositing, Figurenersatz, Anime-Hybridisierung und Hintergrundtausch.
OmniGen 2 kann auch mehrere Eingabebilder zu einem verschmelzen. | Bild: Wu et al.

Neuartige Positionseinbettung für multimodale Prompts

Die Forschenden entwickelten eine spezielle "Omni-RoPE"-Positionseinbettung, die Positionsinformationen in drei Komponenten aufteilt: einen Sequenz- und Modalitätsidentifikator, der verschiedene Bilder unterscheidet, sowie 2D-Koordinaten für die räumliche Position innerhalb jeder Bildeinheit. Diese Technik soll besonders bei Bildbearbeitung und kontextueller Generation die Konsistenz verbessern.

Diagramm der Omni-RoPE Methode: Eine Textanweisung und zwei Eingangsbilder werden zu einem Ausgangsbild kombiniert, wobei jedem Element eine eindeutige ID und Koordinaten zugewiesen werden.
Die "Omni-RoPE"-Positionseinbettung weist jedem Element wie Text oder Bild eine einzigartige ID zu. Dies ermöglicht dem Modell, multiple Eingaben zu unterscheiden und räumlich korrekt zu kombinieren. | Bild: Wu et al.

Ein weiterer technischer Unterschied: OmniGen2 nutzt VAE-Features (Variational Autoencoder) ausschließlich als Eingabe für den Diffusion-Decoder, anstatt sie in das multimodale Sprachmodell zu integrieren. Das soll die Architektur vereinfachen und die ursprünglichen Verständnisfähigkeiten des Sprachmodells erhalten.

Reflection-Mechanismus für iterative Verbesserung

Eine besondere Neuerung ist der Reflection-Mechanismus, der es OmniGen2 ermöglicht, generierte Bilder selbst zu bewerten und iterativ zu verbessern. Das System analysiert Mängel im generierten Bild und schlägt spezifische Korrekturen vor.

Empfehlung
Collage aus vier Chatkonversationen mit fehlerhaften Bildprompts und deren Korrekturen für präzise Bildgenerierung.
Durch den Reflection-Mechanismus kann OmniGen 2 selbstständig Bilder verbessern. | Bild: Wu et al.

Da bisherige Benchmarks für kontextuelle Generation unzureichend gewesen seien, führten die Forschenden den OmniContext-Benchmark ein. Dieser umfasst drei Kategorien - Character, Object und Scene - mit insgesamt acht Teilaufgaben und je 50 Beispielen pro Aufgabe.

Die Evaluierung erfolgt durch GPT-4.1, das sowohl Prompt-Befolgung als auch Subjektkonsistenz auf einer Skala von 0 bis 10 bewertet. OmniGen2 erreichte einen Gesamtscore von 7,18 und übertraf damit alle anderen Open-Source-Modelle deutlich. GPT-4o, das seit Kurzem ebenfalls native Bildgenerierung unterstützt, erreicht 8,8.

Bei der Text-zu-Bild-Generation erzielte OmniGen2 auf wichtigen Benchmarks wie GenEval und DPG-Bench kompetitive Ergebnisse. In der Bildbearbeitung etablierte sich das Modell als neuer State-of-the-Art unter den Open-Source-Modellen.

Das Modell weist aber auch noch einige Einschränkungen auf: Englische Prompts funktionierten zuverlässiger als chinesische, Körperformmodifikationen bereiteten Schwierigkeiten, und die Ausgabequalität hänge stark von der Eingabebildqualität ab. Bei mehrdeutigen Multi-Bild-Eingaben benötigt das System außerdem explizite Anweisungen zur Zuordnung von Objekten.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Die Forschenden planen, sowohl die Modelle als auch die Trainingsdaten und Konstruktionspipelines der Community auf Hugging Face zur Verfügung zu stellen.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Die Beijing Academy of Artificial Intelligence hat mit OmniGen 2 ein Open-Source-Modell vorgestellt, das Text-zu-Bild-Generation, Bildbearbeitung und kontextuelle Bildgenerierung kombiniert und dabei neue Architekturen für Text- und Bilddekodierung nutzt.
  • In Benchmarks übertrifft OmniGen 2 andere Open-Source-Modelle bei kontextueller Generierung und Bildbearbeitung, zeigt jedoch Schwächen bei chinesischen Prompts, bestimmten Modifikationen und der Bildqualität bei mehrdeutigen Eingaben
  • Die Modelle und Trainingsdaten sollen der Community frei zugänglich gemacht werden.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!