Llama 3 405B: Größtes Meta Llama-Modell soll Ende Juli mit Weights erscheinen

Midjourney prompted by THE DECODER

Meta Platforms will nach Angaben eines Mitarbeiters am 23. Juli die größte Version seines Open-Source-Sprachmodells Llama 3 veröffentlichen.

Das Modell mit 405 Milliarden Parametern soll multimodal sein und sowohl Bilder als auch Text verarbeiten können, berichtet "The Information". Das Modell sollte also aus der Kombination Bild und Text neue Bilder erzeugen können.

Zwischenzeitlich gab es Gerüchte, dass Meta die Gewichte des 400-Milliarden-Modells nicht zur Verfügung stellen würde. Der KI-Leaker Jimmy Apples berichtet auf X von angeblichen Einwänden des Facebook-Mitbegründers Dustin Moskovitz gegenüber Mark Zuckerberg. Meta habe sich jedoch trotz dieser Einwände entschieden, das Modell einschließlich der Gewichte als Open Source zu veröffentlichen.

Gegen die Veröffentlichung der Gewichte sprechen finanzielle Gründe, das Modelltraining kostet viel Geld, und Sicherheitsgründe. Mit Gewichten ist das Open-Source-Modell für mehr Menschen direkt leichter einsetzbar, was aus Sicherheitsperspektive kritisiert werden kann.

Gewichte in KI-Modellen sind Schlüsselparameter für die Optimierung von Vorhersagen. Ihre Veröffentlichung in Open-Source-Modellen ermöglicht Reproduzierbarkeit und erleichtert die praktische Anwendung, Transparenz und Vergleichbarkeit.

Wenn Entwickler ein vortrainiertes Modell ohne Gewichte herunterladen, erhalten sie nur die Architektur des Modells, also sozusagen die "leere Hülle". Diese Architektur definiert die Struktur des neuronalen Netzes - wie viele Schichten es hat, wie diese verbunden sind usw.

Ohne die trainierten Gewichte, die während des Lernprozesses optimiert wurden, kann dieses Modell noch keine sinnvollen Vorhersagen treffen oder Aufgaben lösen. Ein Trainingsprozess kann je nach Modellgröße und Datenmenge sehr zeit- und ressourcenintensiv sein.

Der Zugang zu den trainierten Gewichten spart also erheblich Zeit und Rechenressourcen und ermöglicht es auch Entwicklern ohne massive Trainingskapazitäten, fortschrittliche KI-Modelle zu nutzen und weiterzuentwickeln. Daher sind die Gewichte so wichtig und begehrt in der KI-Community.