Meta- und Stanford-Forschende haben systematisch untersucht, wie man KI-Modelle für das Verständnis von Videos am besten entwirft. Ihre Erkenntnisse führten zu Apollo, einer Familie von KI-Modellen, die Videosequenzen verstehen können.
Obwohl es bei KI-Modellen für Sprach- und Bildverarbeitung rasante Fortschritte gab, hinken Modelle für Videoaufgaben noch hinterher. Videos bieten zwar reichhaltige dynamische Informationen, aber die Entwicklung von KI-Modellen für Videos ist schwieriger. Das liegt an höheren Rechenanforderungen und vielen offenen Fragen zum optimalen Design solcher Modelle.
Ein Forschungsteam von Meta GenAI und der Stanford University hat nun eine umfassende Studie durchgeführt, um Antworten auf diese Design-Fragen zu finden. Sie untersuchten systematisch verschiedene Designaspekte von KI-Videomodellen wie die Architektur, Trainingsstrategien, verwendete Daten und Evaluierung.
Erkenntnisse von kleinen Modellen gelten auch für große
Die Forschenden machten eine wichtige Entdeckung: Designentscheidungen, die sich bei kleineren Modellen und Datensätzen als gut erwiesen, funktionierten auch bei größeren Modellen. Dadurch lässt sich effizienter experimentieren, ohne aufwendige Studien mit riesigen Modellen durchführen zu müssen.
Bei der Auswahl von Videoframes stellte sich eine konstante Abtastrate (Bilder pro Sekunde) als vorteilhaft heraus. Für die Verarbeitung der visuellen Informationen erwies sich eine Kombination aus zwei spezialisierten Komponenten als am besten: eine für Einzelbilder und eine für zeitliche Zusammenhänge in Videos.
Als optimale Strategie, um die visuellen Informationen in die Textverarbeitung zu integrieren, zeigte sich, Zeitstempel zwischen den verarbeiteten Videoclips einzufügen.
Schrittweises Training und ausgewogene Daten sind entscheidend
Beim Training der KI-Videomodelle führte ein schrittweises Vorgehen, bei dem verschiedene Komponenten nacheinander aktiviert wurden, zu den besten Ergebnissen. Die Komponenten für die visuelle Verarbeitung ließen sich durch Training ausschließlich auf Videodaten noch weiter verbessern, insbesondere bei spezialisierten Aufgaben.
Auch die Zusammensetzung der Trainingsdaten erwies sich als entscheidend: Eine moderate Menge an Textdaten (10–14 %) und eine leicht videolastige Mischung der restlichen Datentypen führten zu den besten Ergebnissen.
Basierend auf diesen Erkenntnissen entwickelten die Forschenden Apollo, eine Familie von KI-Videomodellen, die auf verschiedenen Komplexitätsstufen Spitzenleistungen erbringt. Apollo-3B übertrifft die meisten Modelle ähnlicher Größe wie Qwen2-VL, während Apollo-7B sogar viele deutlich größere Modelle übertrifft.
Meta stellt Code und Gewichte quelloffen und kostenlos zur Verfügung. Auf Hugging Face findet sich zudem eine kostenlose Demo.
ApolloBench macht Evaluierung effizienter
Die Forschenden untersuchten auch den Stand der Testverfahren für KI-Videomodelle. Sie stellten fest, dass viele Verbesserungen hauptsächlich auf Fortschritte bei der Sprachverarbeitung und nicht auf ein besseres Videoverständnis zurückgehen.
Um die Evaluierung effizienter zu gestalten, stellten sie ApolloBench zusammen, eine optimierte Auswahl von Testaufgaben. ApolloBench reduziert die Evaluierungszeit und ermöglicht gleichzeitig eine detailliertere Bewertung, wie gut die Modelle zeitliche Zusammenhänge erkennen und verstehen.
Die Ergebnisse von Meta unterstreichen vorherige Forschungserkenntnisse, dass durchdachte Designentscheidungen und Trainingsstrategien häufig wichtiger sind als pure Modellgröße. Das bewies erst kürzlich auch Microsofts Sprachmodell Phi-4. Beeindruckendes Videoverständnis demonstrierte außerdem das gerade veröffentlichte Gemini 2.0 Flash, was dem Namen nach ebenfalls ein eher kleines Modell sein dürfte.