Meta entwickelt Apollo-Modelle für besseres Videoverständnis durch KI

Meta- und Stanford-Forschende haben systematisch untersucht, wie man KI-Modelle für das Verständnis von Videos am besten entwirft. Ihre Erkenntnisse führten zu Apollo, einer Familie von KI-Modellen, die Videosequenzen verstehen können.

Obwohl es bei KI-Modellen für Sprach- und Bildverarbeitung rasante Fortschritte gab, hinken Modelle für Videoaufgaben noch hinterher. Videos bieten zwar reichhaltige dynamische Informationen, aber die Entwicklung von KI-Modellen für Videos ist schwieriger. Das liegt an höheren Rechenanforderungen und vielen offenen Fragen zum optimalen Design solcher Modelle.

Schematisches Diagramm: Komponenten eines Large Language Models mit Video-Verarbeitung, zeigt Sampling-Strategien, Encoder-Optionen und Trainingsparameter. — Diese schematische Darstellung zeigt zentrale Designentscheidungen für videobasierte Sprachmodelle. Die Optimierung umfasst Video-Sampling, Encoder-Architekturen, Trainingsabläufe und Datenzusammensetzung für bestmögliche Modellleistung. | Bild: Meta

Ein Forschungsteam von Meta GenAI und der Stanford University hat nun eine umfassende Studie durchgeführt, um Antworten auf diese Design-Fragen zu finden. Sie untersuchten systematisch verschiedene Designaspekte von KI-Videomodellen wie die Architektur, Trainingsstrategien, verwendete Daten und Evaluierung.

Erkenntnisse von kleinen Modellen gelten auch für große

Die Forschenden machten eine wichtige Entdeckung: Designentscheidungen, die sich bei kleineren Modellen und Datensätzen als gut erwiesen, funktionierten auch bei größeren Modellen. Dadurch lässt sich effizienter experimentieren, ohne aufwendige Studien mit riesigen Modellen durchführen zu müssen.

Bei der Auswahl von Videoframes stellte sich eine konstante Abtastrate (Bilder pro Sekunde) als vorteilhaft heraus. Für die Verarbeitung der visuellen Informationen erwies sich eine Kombination aus zwei spezialisierten Komponenten als am besten: eine für Einzelbilder und eine für zeitliche Zusammenhänge in Videos.

Als optimale Strategie, um die visuellen Informationen in die Textverarbeitung zu integrieren, zeigte sich, Zeitstempel zwischen den verarbeiteten Videoclips einzufügen.

Schrittweises Training und ausgewogene Daten sind entscheidend

Beim Training der KI-Videomodelle führte ein schrittweises Vorgehen, bei dem verschiedene Komponenten nacheinander aktiviert wurden, zu den besten Ergebnissen. Die Komponenten für die visuelle Verarbeitung ließen sich durch Training ausschließlich auf Videodaten noch weiter verbessern, insbesondere bei spezialisierten Aufgaben.

Auch die Zusammensetzung der Trainingsdaten erwies sich als entscheidend: Eine moderate Menge an Textdaten (10–14 %) und eine leicht videolastige Mischung der restlichen Datentypen führten zu den besten Ergebnissen.

Liniendiagramm mit Kreisdiagrammen: Performance-Score verschiedener Datenmischungen aus Text, Bild, Multi-Image und Video über Zeit, zeigt optimale Verteilung. — Die Leistungsfähigkeit von KI-Modellen hängt stark von der Zusammensetzung der Trainingsdaten ab. Eine Mischung mit etwa 14 Prozent Textdaten und einem höheren Anteil an Videodaten erzielt laut Meta die besten Ergebnisse beim Videoverständnis. | Bild: Meta

Basierend auf diesen Erkenntnissen entwickelten die Forschenden Apollo, eine Familie von KI-Videomodellen, die auf verschiedenen Komplexitätsstufen Spitzenleistungen erbringt. Apollo-3B übertrifft die meisten Modelle ähnlicher Größe wie Qwen2-VL, während Apollo-7B sogar viele deutlich größere Modelle übertrifft.

Empfehlung

KI-Forschung

Studie deckt gravierende Logik-Schwächen bei kleinen KI-Sprachmodellen auf

Meta stellt Code und Gewichte quelloffen und kostenlos zur Verfügung. Auf Hugging Face findet sich zudem eine kostenlose Demo.

ApolloBench macht Evaluierung effizienter

Die Forschenden untersuchten auch den Stand der Testverfahren für KI-Videomodelle. Sie stellten fest, dass viele Verbesserungen hauptsächlich auf Fortschritte bei der Sprachverarbeitung und nicht auf ein besseres Videoverständnis zurückgehen.

Um die Evaluierung effizienter zu gestalten, stellten sie ApolloBench zusammen, eine optimierte Auswahl von Testaufgaben. ApolloBench reduziert die Evaluierungszeit und ermöglicht gleichzeitig eine detailliertere Bewertung, wie gut die Modelle zeitliche Zusammenhänge erkennen und verstehen.

Die Ergebnisse von Meta unterstreichen vorherige Forschungserkenntnisse, dass durchdachte Designentscheidungen und Trainingsstrategien häufig wichtiger sind als pure Modellgröße. Das bewies erst kürzlich auch Microsofts Sprachmodell Phi-4. Beeindruckendes Videoverständnis demonstrierte außerdem das gerade veröffentlichte Gemini 2.0 Flash, was dem Namen nach ebenfalls ein eher kleines Modell sein dürfte.

Community beitreten

Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!

Meta entwickelt Apollo-Modelle für besseres Videoverständnis durch KI

Erkenntnisse von kleinen Modellen gelten auch für große

Schrittweises Training und ausgewogene Daten sind entscheidend

Studie deckt gravierende Logik-Schwächen bei kleinen KI-Sprachmodellen auf

ApolloBench macht Evaluierung effizienter

Meta kauft Audio-KI-Start-up und bündelt Superintelligence-Offensive für Llama 4.5

Meta entdeckt Hinweise auf selbstlernende KI und bremst Open-Source-Pläne

Metas All-Star-KI-Team: Milliardeninvestition mit unklarem Ausgang

OpenAI startet GPT-5 – mit besserem Verständnis, Personalisierung und Entwickler-Tools

Google Deepmind zeigt mit Genie 3 ein KI-Modell für interaktive Welten in Echtzeit

Google schaltet Gemini 2.5 Deep Think frei – und zieht erste Sicherheitsgrenzen

Meta entwickelt Apollo-Modelle für besseres Videoverständnis durch KI

Erkenntnisse von kleinen Modellen gelten auch für große

Schrittweises Training und ausgewogene Daten sind entscheidend

ApolloBench macht Evaluierung effizienter

Artikel teilen

Bankverbindung