Inhalt
summary Zusammenfassung

Meta- und Stanford-Forschende haben systematisch untersucht, wie man KI-Modelle für das Verständnis von Videos am besten entwirft. Ihre Erkenntnisse führten zu Apollo, einer Familie von KI-Modellen, die Videosequenzen verstehen können.

Anzeige

Obwohl es bei KI-Modellen für Sprach- und Bildverarbeitung rasante Fortschritte gab, hinken Modelle für Videoaufgaben noch hinterher. Videos bieten zwar reichhaltige dynamische Informationen, aber die Entwicklung von KI-Modellen für Videos ist schwieriger. Das liegt an höheren Rechenanforderungen und vielen offenen Fragen zum optimalen Design solcher Modelle.

Schematisches Diagramm: Komponenten eines Large Language Models mit Video-Verarbeitung, zeigt Sampling-Strategien, Encoder-Optionen und Trainingsparameter.
Diese schematische Darstellung zeigt zentrale Designentscheidungen für videobasierte Sprachmodelle. Die Optimierung umfasst Video-Sampling, Encoder-Architekturen, Trainingsabläufe und Datenzusammensetzung für bestmögliche Modellleistung. | Bild: Meta

Ein Forschungsteam von Meta GenAI und der Stanford University hat nun eine umfassende Studie durchgeführt, um Antworten auf diese Design-Fragen zu finden. Sie untersuchten systematisch verschiedene Designaspekte von KI-Videomodellen wie die Architektur, Trainingsstrategien, verwendete Daten und Evaluierung.

Erkenntnisse von kleinen Modellen gelten auch für große

Die Forschenden machten eine wichtige Entdeckung: Designentscheidungen, die sich bei kleineren Modellen und Datensätzen als gut erwiesen, funktionierten auch bei größeren Modellen. Dadurch lässt sich effizienter experimentieren, ohne aufwendige Studien mit riesigen Modellen durchführen zu müssen.

Anzeige
Anzeige

Bei der Auswahl von Videoframes stellte sich eine konstante Abtastrate (Bilder pro Sekunde) als vorteilhaft heraus. Für die Verarbeitung der visuellen Informationen erwies sich eine Kombination aus zwei spezialisierten Komponenten als am besten: eine für Einzelbilder und eine für zeitliche Zusammenhänge in Videos.

Als optimale Strategie, um die visuellen Informationen in die Textverarbeitung zu integrieren, zeigte sich, Zeitstempel zwischen den verarbeiteten Videoclips einzufügen.

Schrittweises Training und ausgewogene Daten sind entscheidend

Beim Training der KI-Videomodelle führte ein schrittweises Vorgehen, bei dem verschiedene Komponenten nacheinander aktiviert wurden, zu den besten Ergebnissen. Die Komponenten für die visuelle Verarbeitung ließen sich durch Training ausschließlich auf Videodaten noch weiter verbessern, insbesondere bei spezialisierten Aufgaben.

Auch die Zusammensetzung der Trainingsdaten erwies sich als entscheidend: Eine moderate Menge an Textdaten (10–14 %) und eine leicht videolastige Mischung der restlichen Datentypen führten zu den besten Ergebnissen.

Liniendiagramm mit Kreisdiagrammen: Performance-Score verschiedener Datenmischungen aus Text, Bild, Multi-Image und Video über Zeit, zeigt optimale Verteilung.
Die Leistungsfähigkeit von KI-Modellen hängt stark von der Zusammensetzung der Trainingsdaten ab. Eine Mischung mit etwa 14 Prozent Textdaten und einem höheren Anteil an Videodaten erzielt laut Meta die besten Ergebnisse beim Videoverständnis. | Bild: Meta

Basierend auf diesen Erkenntnissen entwickelten die Forschenden Apollo, eine Familie von KI-Videomodellen, die auf verschiedenen Komplexitätsstufen Spitzenleistungen erbringt. Apollo-3B übertrifft die meisten Modelle ähnlicher Größe wie Qwen2-VL, während Apollo-7B sogar viele deutlich größere Modelle übertrifft.

Empfehlung

Meta stellt Code und Gewichte quelloffen und kostenlos zur Verfügung. Auf Hugging Face findet sich zudem eine kostenlose Demo.

ApolloBench macht Evaluierung effizienter

Die Forschenden untersuchten auch den Stand der Testverfahren für KI-Videomodelle. Sie stellten fest, dass viele Verbesserungen hauptsächlich auf Fortschritte bei der Sprachverarbeitung und nicht auf ein besseres Videoverständnis zurückgehen.

Um die Evaluierung effizienter zu gestalten, stellten sie ApolloBench zusammen, eine optimierte Auswahl von Testaufgaben. ApolloBench reduziert die Evaluierungszeit und ermöglicht gleichzeitig eine detailliertere Bewertung, wie gut die Modelle zeitliche Zusammenhänge erkennen und verstehen.

Die Ergebnisse von Meta unterstreichen vorherige Forschungserkenntnisse, dass durchdachte Designentscheidungen und Trainingsstrategien häufig wichtiger sind als pure Modellgröße. Das bewies erst kürzlich auch Microsofts Sprachmodell Phi-4. Beeindruckendes Videoverständnis demonstrierte außerdem das gerade veröffentlichte Gemini 2.0 Flash, was dem Namen nach ebenfalls ein eher kleines Modell sein dürfte.

Anzeige
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Meta und Stanford-Forscher haben systematisch untersucht, wie man KI-Modelle für das Verständnis von Videos am besten entwirft.
  • Sie fanden heraus, dass Designentscheidungen, die sich bei kleineren Modellen bewähren, auch bei größeren funktionieren. Eine konstante Abtastrate, spezialisierte Komponenten für Einzelbilder und zeitliche Zusammenhänge sowie die Integration von Zeitstempeln erwiesen sich als vorteilhaft.
  • Basierend auf diesen Erkenntnissen entwickelten die Forscher Apollo, eine Familie von KI-Videomodellen, die auf verschiedenen Komplexitätsstufen Spitzenleistungen erbringen.
Quellen
Jonathan ist Technikjournalist und beschäftigt sich stark mit Consumer Electronics. Er erklärt seinen Mitmenschen, wie KI bereits heute nutzbar ist und wie sie im Alltag unterstützen kann.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!