Google und Google Deepmind präsentieren Mirasol, ein kleines KI-Modell, das Fragen zu Videos beantworten kann und dabei neue Rekorde aufstellt.
Um Videos zu verstehen, müssen KI-Modelle Informationen aus verschiedenen Modalitäten wie Video, Audio und Text integrieren. Heutige KI-Systeme haben jedoch Schwierigkeiten, die vielfältigen Datenströme und großen Datenmengen zu verarbeiten. In einer neuen Studie stellen Forschende von Google und Google Deepmind einen Ansatz vor, der das multimodale Verstehen von langen Videos deutlich verbessert.
Mirasol setzt auf neues Transformer-Modul "Combiner"
Mit dem KI-Modell Mirasol versucht das Team, zwei zentrale Herausforderungen zu lösen: Erstens sind Modalitäten wie Video und Audio zeitlich synchronisiert und treten mit hohen Abtastraten auf, während Modalitäten wie Titel und Beschreibungen asynchron zum Inhalt selbst sind. Zweitens erzeugen Video und Audio große Datenmengen, die die Modellkapazität belasten.
Für Mirasol verwendet das Team daher sogenannte Combiner und autoregressive Transformer-Modelle. Die zeitsynchronen Video- und Audiosignale werden von einer Modellkomponente verarbeitet, wobei das Video in einzelne Segmente zerlegt wird. Ein Transformer verarbeitet jedes Segment und lernt die Beziehungen zwischen den Segmenten. Ein separater Transformer verarbeitet dann den kontextbezogenen Text. Beide Komponenten tauschen Informationen über ihre jeweiligen Eingaben aus.
In der Video-Audio-Komponente extrahiert ein neuartiges Transformationsmodul namens Combiner aus jedem Segment gemeinsame Repräsentationen und komprimiert die Daten durch Dimensionsreduktion. Jedes Segment umfasst zwischen 4 und 64 Frames, insgesamt kann das Modell in der aktuellen Version mit 3 Milliarden Parametern Videos mit 128 bis 512 Frames verarbeiten. Andere, deutlich größere Modelle, die primär auf textbasierte Transformer mit zusätzlichen Modalitäten setzen, können oft nur 32 bis 64 Frames für das gesamte Video verarbeiten.
Googles Mirasol könnte für YouTube zum Einsatz kommen
Mirasol3B erreicht in Tests neue Bestwerte bei Video-Question-Answering-Benchmarks, ist deutlich kleiner und kann längere Videos verarbeiten. Mit einer Variante des Combiner, die einen Speicher enthält, kann das Team die benötigte Rechenleistung um weitere 18 Prozent reduzieren.
Mit Modellen wie Mirasol könnten in Zukunft Chatbots wie der kürzlich vorgestellte KI-Assistent für YouTube Fragen zu Videos beantworten oder Funktionen wie die automatische Kategorisierung und Kapitelmarkierung von Videos verbessern.