Inhalt
summary Zusammenfassung

Apple veröffentlicht Leistungsdaten seiner beiden KI-Modelle und öffnet das kleinere System für Entwickler. Die Benchmarks werfen kein gutes Licht auf die LLM-Technik des iPhone-Herstellers.

Anzeige

Das Unternehmen entwickelte zwei Modelle: ein kompaktes 3-Milliarden-Parameter-Modell für Geräte und ein größeres Server-basiertes System. In Apples Benchmarks übertrifft das 3-Milliarden-Parameter-Modell das ähnlich große Qwen-2.5-3B und konkurriert mit den größeren Modellen Qwen-3-4B und Gemma-3-4B.

Das zeigt laut Apple, dass Effizienz-Optimierungen die geringere Modellgröße kompensieren können. Der Unterschied in der Parameterzahl fällt jedoch nur klein aus, weshalb die Behauptungen nicht sonderlich aussagekräftig sind.

Diagramme: Menschliche Bewertung von Apples KI-Textantworten vs. andere, nach Sprachgruppen (Englisch, Englisch-außer-USA, acht weitere).
Menschliche Bewertungen zeigen, dass Apples Foundation-Modelle (On-Device/Server) deutlich hinter OpenAIs GPT-4o-Modellen liegen; das erklärt die Partnerschaft mit OpenAI für eine ChatGPT-Integration. | Bild: Apple

Das Server-basierte Modell erreicht eine ähnliche Leistung wie Llama-4-Scout. Apple hatte bislang keine Parameterzahl offiziell bekannt gegeben, es ähnele in der Größe jedoch Metas Scout-Modell, das insgesamt 109 Milliarden Parameter und 17 Milliarden aktive Parameter vorweist.

Anzeige
Anzeige

Apple nutzt eine spezielle Architektur namens "parallel track mixture-of-experts", die mehrere kleinere KI-Systeme parallel arbeiten lässt. Gegen deutlich größere Systeme wie Qwen-3-235B und GPT-4o kann es dennoch nicht mithalten.

Parallel-Track-MoE: Teilnetzwerke verarbeiten Tokens autonom und synchronisieren nur alle 4 Schichten (−87,5 %).
Apple nutzt für sein Servermodell eine Parallel-Track-MoE-Architektur, die die Kommunikation zwischen aktiven Parametern reduziert, die Leistung aber gut skalieren lässt. | Bild: Apple

Bildverständnis mit effizienterem Ansatz

Bei der Bilderkennung konkurriert Apples Gerät-Modell mit InternVL-2.5-4B, Qwen-2.5-VL-3B-Instruct und Gemma-3-4B. Laut Apple schneidet es besser ab als die InternVL- und Qwen-Modelle, kann mit Gemma-3-4B aber nur mithalten. Das Server-Modell übertrifft Qwen-2.5-VL-32B bei weniger als der Hälfte der Rechenoperationen, liegt aber wieder hinter Llama-4-Scout und GPT-4o.

Balkendiagramme: Menschliche Bewertung von Apples KI-Bildverständnis (On-Device/Server) vs. andere Modelle (Win/Tie/Lose).
Die Diagramme zeigen menschliche Bewertungen der Bildverständnisfähigkeiten von Apples KI-Modellen (On-Device und Server) im direkten Vergleich mit Konkurrenzmodellen. | Bild: Apple

Apple nutzt unterschiedliche Bilderkennungs-Systeme je nach Einsatzbereich. Das Server-Modell verwendet eine KI mit einer Milliarde Parametern, während das Gerät-Modell eine effizientere Version mit 300 Millionen Parametern einsetzt. Beide wurden mit mehr als zehn Milliarden Bild-Text-Kombinationen und 175 Millionen Dokumenten mit eingebetteten Bildern trainiert.

Entwickler erhalten nur Zugang zum kleineren Modell

Apple stellt das 3-Milliarden-Parameter-Modell über ein neues Foundation Models Framework für App-Entwickler:innen zur Verfügung. Das Modell eignet sich laut Apple für Zusammenfassungen, Informationsextraktion und Textverständnis, sei aber nicht als Chatbot für allgemeine Fragen konzipiert.

Das Framework bietet kostenlose KI-Nutzung und ist in Apples Programmiersprache Swift integriert. Entwickler:innen können ihre Datenstrukturen markieren, um automatisch passende Ausgaben zu erhalten. Eine Werkzeug-Funktion ermöglicht die Erweiterung der Modell-Fähigkeiten.

Empfehlung

Das leistungsstärkere Server-Modell bleibt hingegen Apple vorbehalten und wird ausschließlich für Apple-Intelligence-Features verwendet. Entwickler haben keinen direkten Zugang zu diesem rechenintensiveren System.

Starke Komprimierung für den Einsatz auf Geräten

Apple komprimierte das Gerät-Modell stark für iPhones und iPads, während das Server-Modell eine spezielle Kompressionstechnik aus der Grafikverarbeitung nutzt. Für die Mehrsprachigkeit erweiterte das Unternehmen das Vokabular von 100.000 auf 150.000 Begriffe.

Das Unternehmen führte kulturspezifische Tests in 15 Sprachen durch, um angemessene Antworten für verschiedene Regionen zu gewährleisten. Trainingsdaten stammen von "Hunderten Milliarden Seiten", die Apple über den Web-Crawler Applebot gesammelt hat, respektiert nach eigenen Angaben aber robots.txt-Dateien zum Ausschluss vom Training und verwende keine Daten von Nutzer:innen.

Wie sich schon im Vorfeld der diesjährigen WWDC abzeichnete, fielen Apples KI-Neuerungen etwa im Vergleich zu Konkurrent Google eher überschaubar aus. Die jetzt veröffentlichten Leistungsvergleiche bestätigen die These, dass Apples Modelle technisch nicht mit denen von Wettbewerbern wie OpenAI mithalten können.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Apple veröffentlicht erstmals Leistungsdaten seiner beiden KI-Modelle: Das kompakte 3-Milliarden-Parameter-Modell für Geräte kann in Benchmarks mit größeren Modellen wie Qwen-3-4B und Gemma-3-4B konkurrieren, während das serverbasierte Modell in etwa auf dem Niveau von Metas Llama-4-Scout liegt, aber nicht mit sehr großen Systemen wie GPT-4o mithalten kann.
  • Für die Bildverständnis-Aufgaben übertrifft das Geräte-Modell Konkurrenzsysteme wie InternVL und Qwen, kommt jedoch an Gemma-3-4B heran; das Server-Modell schneidet effizienter als Qwen-2.5-VL-32B ab, bleibt aber hinter Llama-4-Scout und GPT-4o zurück.
  • Entwickler:innen erhalten Zugriff auf das kleinere 3-Milliarden-Parameter-Modell über ein neues Foundation Models Framework, das kostenlose KI-Nutzung und Integration in Swift bietet. Das leistungsfähigere Server-Modell ist ausschließlich für Apple-Intelligence-Features reserviert.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!