Inhalt
summary Zusammenfassung

Mit einem neuartigen Hybrid-Ansatz will Apple den Konflikt zwischen Bildverständnis und Bilderzeugung lösen. Das Manzano-Modell zeigt laut den Forschenden minimale Leistungseinbußen bei der Vereinigung beider Fähigkeiten.

Anzeige

Das Modell ist zwar nicht öffentlich verfügbar und auch eine Demo fehlt, im Paper zeigen die Forschenden jedoch einige niedrig aufgelöste Bildbeispiele für herausfordernde Prompts im Vergleich zu Open-Source-Modellen wie Deepseeks Janus Pro und proprietären Alternativen wie GPT-4o und Gemini 2.5 Flash ("Nano Banana").

Fünf Generierungen pro Prompt: Vogel fliegt unter Elefant, Corgi mit Schild „I am not a real corgi“ und handgezeichnete Blaupause einer Zeitmaschine.
Qualitative Vergleiche bei drei anspruchsvollen Prompts zeigen, dass Manzano mit OpenAIs GPT-4o und Googles Nano Banana mithalten kann. | Bild: Apple

Laut Apple Research liegt ein zentrales Problem bisheriger Open-Source-Systeme in einem technischen Konflikt: Während proprietäre Modelle beide Funktionen beherrschen, müssen verfügbare Alternativen oft zwischen guter Bildanalyse oder guter Bilderzeugung wählen.

Die Apple-Forschenden berichten im Forschungspapier, dass bestehende Modelle besonders bei textreichen Aufgaben wie der Analyse von Dokumenten oder Diagrammen deutliche Schwächen zeigen.

Anzeige
Anzeige

Den Grund sehen die Wissenschaftler:innen in der unterschiedlichen Verarbeitung von Bildern. Für das Verstehen funktionieren laut Apple kontinuierliche Datenströme besser, für die Erzeugung braucht es diskrete Tokens. Bisherige Lösungen verwenden separate Systeme für beide Aufgaben, was zu Konflikten im Sprachmodell führe.

Hybrid-System als technische Lösung

Manzano, spanisch für "Apfelbaum", soll dieses Problem mit einem sogenannten Hybrid Image Tokenizer lösen. Das System verwendet laut Apple einen gemeinsamen Bildencoder, der zwei spezialisierte Ausgänge produziert: kontinuierliche Tokens, die Bilder als Fließkommazahlen darstellen und sich gut für das Verstehen eignen, sowie diskrete Tokens, die Bilder in feste Kategorien aus einem begrenzten Wortschatz unterteilen und besser für die schrittweise Generierung funktionieren. Da beide Ausgänge aus derselben Quelle stammen, sollen die Konflikte zwischen den verschiedenen Aufgaben erheblich reduziert werden.

Zweiteiliges Workflowdiagramm: Training mit Vision-Encoder, Continuous und Discrete Adapter plus LLM-Decoder; Inferenz mit Hybrid-Tokenizer für Verständnis und Bildgenerierung.
Der hybride Tokenizer kombiniert im Training kontinuierliche und diskrete Adapter für die Abstimmung des LLM-Decoders; in der Inferenz liefert er beide Feature-Ströme für Verständnis- und Generationsaufgaben. | Bild: Apple

Die Gesamtarchitektur besteht aus drei entkoppelten Komponenten: dem Hybrid-Tokenizer, einem vereinheitlichten Sprachmodell und einem separaten Bilddecoder für die finale Pixelerzeugung. Apple bietet drei Konfigurationen des Bilddecoders mit 0,9, 1,75 und 3,52 Milliarden Parametern an, die Auflösungen von 256 bis 2048 Pixel unterstützen.

Das Training erfolgt laut Apple in drei Phasen mit 2,3 Milliarden Bild-Text-Paaren aus einer Mischung öffentlicher und intern lizenzierter Quellen sowie einer Milliarde internen Text-zu-Bild-Paaren. Das Training umfasst nach Angaben der Forschenden insgesamt 1,6 Billionen Tokens. Zusätzlich kommen synthetische Daten etwa von DALL-E 3 und ShareGPT-4o zum Einsatz.

Apple berichtet von Spitzenleistungen

In den Apple-Evaluationen übertrifft Manzano andere vereinheitlichte Modelle deutlich. Bei Wissens- und Reasoning-Benchmarks wie ScienceQA, MMMU und MathVista erzielt die 30-Milliarden-Version laut Apple Spitzenplätze. Besonders stark seien die Resultate bei textreichen Aufgaben wie der Analyse von Diagrammen und Dokumenten.

Empfehlung

Die Skalierungsexperimente zeigen laut Apple kontinuierliche Verbesserungen beim Wachstum von 300 Millionen auf 30 Milliarden Parameter. Das 3-Milliarden-Modell verbesserte sich nach den Messungen um über 10 Punkte bei verschiedenen Aufgaben gegenüber der kleinsten Version.

Radar-Diagramm: Performance-Vergleich von Manzano-3B/30B und anderen multimodalen LLMs auf neun Verständnis- und Generationsbenchmarks.
Manzano-3B und 30B erreichen in neun multimodalen Benchmarks Spitzenleistungen und konkurrieren mit aktuellen SOTA-Modellen. | Bild: Apple

Vergleichsstudien zwischen dem vereinheitlichten System und spezialisierten Einzelmodellen zeigen laut Apple minimale Leistungsunterschiede. Bei der 3-Milliarden-Variante liegt der Performance-Gap laut Apple unter einem Punkt.

Für die Bilderzeugung erreicht Manzano nach Apple-Evaluationen Spitzenleistungen unter den vereinheitlichten Modellen bei etablierten Benchmarks. Das System kann laut den Forschenden komplexe Anweisungen umsetzen sowie Stile übertragen, Bilder ergänzen und Tiefen schätzen.

Collage mit Manzano-Bearbeitungen: anleitungsgesteuerte Edits, Stiltransfer, In-/Outpainting und Tiefenschätzung
Manzano beherrscht klassische und neuere Bearbeitungsaufgaben: promptbasierte Änderungen, vielfältige Stilübertragungen sowie In-/Outpainting und Tiefenschätzung. | Bild: Apple

Modularer Ansatz für zukünftige Systeme

Die Forschenden positionieren Manzano als eine leistungsstarke Alternative zu bestehenden Systemen und sehen in dem modularen Ansatz einen vielversprechenden Weg für zukünftige multimodale KI. Das entkoppelte Design ermöglicht nach Apple-Angaben unabhängige Verbesserungen der einzelnen Komponenten und nutzt etablierte Trainingsmethoden aus verschiedenen KI-Bereichen.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Apples Weg zu einer souveränen Apple Intelligence bleibt dennoch holprig: Erste Benchmarks zeigen, dass die hauseigenen Foundation-Modelle trotz des neuen Frameworks für On-Device-KI noch deutlich hinter der Konkurrenz zurückliegen. Um die Leistungs­lücke kurzfristig zu schließen, wechselt Apple in Apple Intelligence ab iOS 26 auf OpenAIs neues Modell GPT-5. Vor diesem Hintergrund zeigt Manzano zwar, dass Apple technisch Boden gutmacht, doch erst künftige Integrationsschritte werden zeigen, ob das Hybrid-Modell die Abhängigkeit von externen Spitzen-LLMs wirklich verringern kann.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Apple stellt mit Manzano ein multimodales KI-Modell vor, das Bilder sowohl verstehen als auch erzeugen kann und mithilfe eines Hybrid-Tokenizers den Zielkonflikt zwischen diesen Aufgaben deutlich reduziert.
  • Das System kombiniert einen gemeinsamen Bildencoder für kontinuierliche und diskrete Tokens, ein vereinheitlichtes Sprachmodell und einen separaten Bilddecoder und erzielt laut Apple auf Benchmarks Spitzenwerte bei Wissens- und Reasoning-Aufgaben.
  • Trotz des Fortschritts bleibt Apples Rückstand auf Konkurrenten wie OpenAI bestehen: Eigene Foundation-Modelle schneiden schlechter ab, weshalb Apple in Apple Intelligence vorerst auf externe Modelle wie GPT-5 setzt.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!