Inhalt
summary Zusammenfassung

Nur wenige Monate nach der letzten Veröffentlichung folgt der nächste Aufschlag in der Llama-Reihe. Auf das riesige 405B-Textmodell von Llama 3.1 folgen mit Version 3.2 zwei winzige Modelle für Smartphones und zwei größere, die Bilder verstehen können. 

Anzeige

Metas neuste Sprachmodellausgabe enthält zunächst zwei Textmodelle mit ein bzw. drei Milliarden Parametern, die auf Smartphones laufen können und dort etwa Texte zusammenfassen, Texte umschreiben oder bestimmte Funktionen in anderen Apps aufrufen sollen.

Video: Meta

Dafür arbeitete Meta eng mit wichtigen Hardware-Herstellern wie Qualcomm, MediaTek und Arm zusammen. Die lokale Verarbeitung bringt laut Meta vor allem Vorteile in puncto Geschwindigkeit und Datenschutz mit sich.

Anzeige
Anzeige

Um die leichtgewichtigen 1B und 3B Modelle zu optimieren, setzte Meta auf eine Kombination aus Pruning und Wissensübertragung durch größere Lehrer-Modelle. Beim strukturierten Pruning in einem einzigen Durchgang vom vorangehenden Llama-3.1-8B-Modell wurden systematisch Teile des Netzwerks entfernt und die Gewichte angepasst.

Auch Visionmodelle mit 11 und 90 Milliarden Parametern

Zusätzlich zu den leichtgewichtigen Modellen veröffentlicht Meta seine ersten Vision-Modelle mit 11 und 90 Milliarden. Llama 3.2 11B und 90B können nach Benchmarks von Meta bei Aufgaben zum Bildverständnis mit führenden geschlossenen Modellen wie Claude 3 Haiku und GPT-4o mini mithalten. Open-Source-Konkurrent Mistral hatte mit Pixtral kürzlich ebenfalls sein erstes Vision-Modell enthüllt, das allerdings eine deutlich kleinere Parameterzahl aufweist.

Video: Meta

Um die Eingabe von Bildern zu ermöglichen, hat Meta die Llama 3.2 Visionmodelle mit einer neuartigen Architektur ausgestattet. Dabei werden zusätzliche Adapter-Gewichte trainiert, die den vortrainierten Bildencoder in das vortrainierte Sprachmodell integrieren.

Im Gegensatz zu anderen offenen multimodalen Modellen sind die Llama-3.2-Vision-Modelle sowohl in vortrainierten als auch in ausgerichteten Versionen für das Fine-Tuning und die lokale Bereitstellung verfügbar. Bei der Leistung liegen sie auf Augenhöhe mit zuletzt veröffentlichten Modellen wie Pixtral von Mistral oder Qwen 2 VL.

Empfehlung
Bild: Meta

Llama-Stack-API soll RAG und mehr vereinfachen

Um die Entwicklung mit Llama-Modellen zu vereinfachen, führt Meta die ersten offiziellen Llama-Stack-Distributionen ein. Diese ermöglichen die schlüsselfertige Bereitstellung von Anwendungen mit Retrieval-Augmented Generation (RAG) und Tool-Anbindung in verschiedenen Umgebungen.

Für die API arbeitet Meta unter anderem mit AWS, Databricks, Dell und Together AI zusammen. Hinzu kommen unter anderem eine Schnittstelle für die Kommandozeile (CLI) und Code für verschiedene Programmiersprachen.

Meta fehlt mobil der Heimvorteil

Die Veröffentlichung von Llama 3.2 stellt einen weiteren Meilenstein in Metas Bemühungen dar, Open-Source-KI zum Standard zu machen. Allerdings kamen um diesen Begriff im Kontext des US-Unternehmens erst kürzlich Diskussionen auf. So werfen Kritiker:innen ihm unter anderem vor, Trainingsdaten zurückzuhalten.

Erst im Juli hatte Meta die vorhergehende Version 3.1 mit bis zu 405 Milliarden Parametern veröffentlicht, das sich, trotz des Trainings auf synthetischen Daten, gegenüber kommerziellen Modellen behaupten konnte.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Llama 3.2 ist im Gegensatz dazu auf Geräte mit beschränkten Ressourcen wie Smartphones optimiert. Ob es da jedoch überhaupt sinnvoll zur Anwendung kommt, bleibt abzuwarten – schließlich gibt es unter Android mit Gemini Nano und unter iOS mit Apple Intelligence eigene und tief ins System integrierte Lösungen für die lokale KI-Verarbeitung.

Mit dem Vision-Upgrade für die Llama-Modelle hat Meta vor allem seinem KI-Assistenten Meta AI eine wichtige Funktion verpasst, die vielen Nutzer:innen auf den zahlreichen Plattformen des Social-Media-Giganten zugutekommt. Das könnte auf lange Sicht etwa ChatGPT Kund:innen kosten, das vor rund einem Jahr diese Funktion erhalten hat.

Die Llama-3.2-Modelle stehen zum Download auf llama.com und Hugging Face sowie über ein breites Ökosystem von Partnerplattformen zur Verfügung.

Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta hat Llama 3.2 veröffentlicht, eine Reihe von Open-Source-KI-Modellen für Edge-Geräte und Vision-Anwendungen. Die 1B- und 3B-Textmodelle sollen auf Smartphones laufen und dort etwa Texte zusammenfassen oder umschreiben.
  • Zusätzlich veröffentlicht Meta 11B- und 90B-Vision-Modelle, die bei Aufgaben zum Bildverständnis mit ähnlich großen, geschlossenen Modellen mithalten können. Eine neuartige Architektur mit zusätzlichen Adapter-Gewichten ermöglicht die Eingabe von Bildern.
  • Um die Entwicklung mit Llama-Modellen zu vereinfachen, führt Meta die ersten offiziellen Llama-Stack-Distributionen ein, eine API für schlüsselfertige Anwendungen mit Retrieval-Augmented Generation und Tool-Anbindung. Es bleibt abzuwarten, ob sich die Modelle gegenüber systemintegrierten mobilen Lösungen durchsetzen werden.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!