Inhalt
summary Zusammenfassung

Google und Google Deepmind präsentieren Mirasol, ein kleines KI-Modell, das Fragen zu Videos beantworten kann und dabei neue Rekorde aufstellt.

Um Videos zu verstehen, müssen KI-Modelle Informationen aus verschiedenen Modalitäten wie Video, Audio und Text integrieren. Heutige KI-Systeme haben jedoch Schwierigkeiten, die vielfältigen Datenströme und großen Datenmengen zu verarbeiten. In einer neuen Studie stellen Forschende von Google und Google Deepmind einen Ansatz vor, der das multimodale Verstehen von langen Videos deutlich verbessert.

Mirasol setzt auf neues Transformer-Modul "Combiner"

Mit dem KI-Modell Mirasol versucht das Team, zwei zentrale Herausforderungen zu lösen: Erstens sind Modalitäten wie Video und Audio zeitlich synchronisiert und treten mit hohen Abtastraten auf, während Modalitäten wie Titel und Beschreibungen asynchron zum Inhalt selbst sind. Zweitens erzeugen Video und Audio große Datenmengen, die die Modellkapazität belasten.

Für Mirasol verwendet das Team daher sogenannte Combiner und autoregressive Transformer-Modelle. Die zeitsynchronen Video- und Audiosignale werden von einer Modellkomponente verarbeitet, wobei das Video in einzelne Segmente zerlegt wird. Ein Transformer verarbeitet jedes Segment und lernt die Beziehungen zwischen den Segmenten. Ein separater Transformer verarbeitet dann den kontextbezogenen Text. Beide Komponenten tauschen Informationen über ihre jeweiligen Eingaben aus.

Anzeige
Anzeige

In der Video-Audio-Komponente extrahiert ein neuartiges Transformationsmodul namens Combiner aus jedem Segment gemeinsame Repräsentationen und komprimiert die Daten durch Dimensionsreduktion. Jedes Segment umfasst zwischen 4 und 64 Frames, insgesamt kann das Modell in der aktuellen Version mit 3 Milliarden Parametern Videos mit 128 bis 512 Frames verarbeiten. Andere, deutlich größere Modelle, die primär auf textbasierte Transformer mit zusätzlichen Modalitäten setzen, können oft nur 32 bis 64 Frames für das gesamte Video verarbeiten.

Googles Mirasol könnte für YouTube zum Einsatz kommen

Mirasol3B erreicht in Tests neue Bestwerte bei Video-Question-Answering-Benchmarks, ist deutlich kleiner und kann längere Videos verarbeiten. Mit einer Variante des Combiner, die einen Speicher enthält, kann das Team die benötigte Rechenleistung um weitere 18 Prozent reduzieren.

Mit Modellen wie Mirasol könnten in Zukunft Chatbots wie der kürzlich vorgestellte KI-Assistent für YouTube Fragen zu Videos beantworten oder Funktionen wie die automatische Kategorisierung und Kapitelmarkierung von Videos verbessern.

Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Anzeige
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!
Unterstütze unsere unabhängige, frei zugängliche Berichterstattung. Jeder Betrag hilft und sichert unsere Zukunft. Jetzt unterstützen:
Banküberweisung
Zusammenfassung
  • Google und Deepmind präsentieren Mirasol, ein KI-Modell, das Fragen zu Videos beantworten kann und dabei neue Rekorde aufstellt.
  • Mirasol verarbeitet zeitsynchrone Video- und Audiosignale sowie kontextbezogenen Text, wobei das Video in einzelne Segmente zerlegt und von einem neuartigen Transformationsmodul namens Combiner komprimiert wird.
  • Das Mirasol-Modell könnte zukünftig bei YouTube eingesetzt werden, um Chatbots Fragen zu Videos beantworten zu lassen oder Funktionen wie automatische Kategorisierung und Kapitelmarkierung von Videos zu verbessern.
Quellen
Max ist leitender Redakteur bei THE DECODER. Als studierter Philosoph beschäftigt er sich mit dem Bewusstsein, KI und der Frage, ob Maschinen wirklich denken können oder nur so tun als ob.
Community beitreten
Kommt in die DECODER-Community bei Discord,Reddit, Twitter und Co. - wir freuen uns auf euch!