MM1: Apple stellt multimodales KI-Modell mit hohem visuellem Verständnis vor

Mit MM1 stellt Apple ein leistungsfähiges multimodales KI-Modell vor, das es dank intelligenter Architektur und umfangreichem Training mit GPT-4V und Google Gemini aufnehmen kann. Ein ausführliches Paper gibt erste Einblicke.

Apple hat mit MM1 ein multimodales KI-Modell entwickelt, das durch umfangreiches Training mit Bild- und Textdaten eine für seine Größe beeindruckende Leistungsfähigkeit erreicht hat.

Wie GPT-4V und Gemini basiert MM1 auf der Architektur der Large Language Models (LLMs) und wurde mit einer Mischung aus Bild-Text-Paaren, verschachtelten Bild-Text-Dokumenten und reinen Textdaten trainiert (45 % Bild-Text-Paare, 45 % verschachtelte Bild-Text-Dokumente, 10 % reine Textdaten).

Dadurch erlangte das Modell ähnliche Fähigkeiten wie seine Konkurrenten, darunter Bildbeschreibung, Beantwortung von Fragen und sogar grundlegende Mathematik.

Apples MM1-Modell kann Motive und Text auf Bildern erkennen und über mehrere Bilder hinweg kombinieren. | Bild: B. McKinzie et al.

Die Apple-Forscher untersuchten im Detail, welche Faktoren, wie Architekturkomponenten und Trainingsdaten, den stärksten Einfluss auf die Leistung von MM1 haben. Sie fanden heraus, dass eine hohe Bildauflösung, die Leistung des Bildverarbeitungsteils (des sogenannten "visuellen Encoders") und die Menge der Trainingsdaten besonders wichtig sind, während die Verbindung zwischen Bild und Sprache weniger entscheidend ist.

Der visuelle Encoder ist dafür zuständig, die Bildinformationen in eine Form zu bringen, die das KI-System verarbeiten kann. Je leistungsfähiger dieser Encoder ist, desto besser kann MM1 den Bildinhalt verstehen und interpretieren.

Auch die richtige Mischung der Trainingsdaten spielt eine große Rolle: Für gute Ergebnisse mit wenigen Beispielen im Prompt waren Bild-Text-Paare, gemischte Bild-Text-Daten und reine Textdaten entscheidend. Musste MM1 dagegen ohne Beispiele im Prompt auskommen, waren primär Bild-Text-Paare in den Trainingsdaten für das Generierungsergebnis ausschlaggebend.

Bild-Text-Paare (image-caption pairs oder image-text pairs) sind Daten, bei denen jedes Bild direkt mit einem zugehörigen Text gepaart ist. Dieser Text ist typischerweise eine Beschreibung oder Erklärung des Bildinhalts.

Ein Beispiel wäre ein Bild von einem Hund mit der Beschriftung "Ein brauner Hund spielt mit einem Ball im Park". Solche paarweisen Daten werden häufig verwendet, um Modelle für Aufgaben wie automatische Bildbeschriftung zu trainieren.

Empfehlung

KI in der Praxis

Orion und Strawberry: Das sollen die nächsten KI-Fortschritte von OpenAI sein

Bild-Text-Daten (interleaved image-text) hingegen sind Daten, in denen Bilder und Texte in gemischter Reihenfolge auftreten, ohne dass jedes Bild notwendigerweise direkt mit einem bestimmten Text verknüpft ist.

Ein Beispiel wäre ein Nachrichtenartikel, der aus einer Mischung von Bildern und Textabschnitten besteht, die sich auf dasselbe Thema beziehen, aber nicht unbedingt in einer 1:1-Beziehung stehen. Solche Daten spiegeln eher die Art und Weise wider, wie visuelle und textuelle Informationen in natürlichen Kontexten oft zusammen auftreten.

Im Kontext des Papers hat sich gezeigt, dass eine Mischung aus beiden Datentypen - also sowohl Bild-Text-Paare als auch gemischte Bild-Text-Daten - zusammen mit reinen Textdaten für das Training von multimodalen KI-Modellen vorteilhaft ist, insbesondere wenn es darum geht, mit wenigen Beispielen gute Ergebnisse zu erzielen (Few-Shot Learning).

30 Milliarden Parameter können für State-of-the-Art-Ergebnisse ausreichen

Durch die Skalierung auf bis zu 30 Milliarden Parameter und die Verwendung von Mixture-of-Experts (MoE)-Modellen, eine spezielle Technik, bei der mehrere spezialisierte KI-Modelle zusammenarbeiten, erzielte MM1 überzeugende Ergebnisse. Es übertraf die meisten veröffentlichten Modelle im Few-Shot-Learning für Bildunterschriften und visuelle Frage-Antwort-Generierung.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

MM1 zeigt seine Stärken auch in komplexeren Szenarien. Es kann Informationen aus mehreren Bildern kombinieren, um komplexe Fragen zu beantworten oder Schlussfolgerungen zu ziehen, die sich nicht aus einem einzelnen Bild ableiten lassen, sogenanntes Multi-Image-Reasoning.

MM1 kann den Inhalt mehrerer Bilder kombinieren, um Schlussfolgerungen zu ziehen. Im Beispiel erkennt das Modell zwei Flaschen Bier auf dem Tisch, sieht den Preis für ein Bier auf der Speisekarte und folgert, dass der Preis für zwei Flaschen bezahlt werden muss. | Bild: B. McKinzie et al.

Nach einem weiteren Training mit ausgewählten Daten, dem so genannten "Supervised Fine-Tuning" (SFT), erzielte MM1 auch in zwölf etablierten Vergleichstests konkurrenzfähige Ergebnisse. Damit könnte es in Zukunft zu einem ernsthaften Konkurrenten für andere führende KI-Systeme wie GPT-4V und Google Gemini werden.

MM1: Apple stellt multimodales KI-Modell mit hohem visuellem Verständnis vor

Orion und Strawberry: Das sollen die nächsten KI-Fortschritte von OpenAI sein

30 Milliarden Parameter können für State-of-the-Art-Ergebnisse ausreichen

Perplexity soll jetzt 18 Milliarden Dollar wert sein

OpenAI-Chef warnt vor dem Einsatz von ChatGPT-Agent für wichtige Aufgaben

Meta wirbt erneut Top-KI-Forscher von Apple ab - Millionen-Gehälter locken

ChatGPT Agent: OpenAI stattet ChatGPT mit autonomen Agenten-Fähigkeiten aus

Kimi K2: Das nächste Open-Model-Wunder nach Deepseek kommt wieder aus China

Neue KI-Architektur verspricht besseres "System 2-Denken"

MM1: Apple stellt multimodales KI-Modell mit hohem visuellem Verständnis vor

30 Milliarden Parameter können für State-of-the-Art-Ergebnisse ausreichen

Artikel teilen

Bankverbindung