Forschende untersucht, ob Multimodalität KI-Modelle auch dann leistungsfähiger macht, wenn die Daten nicht in direktem Zusammenhang stehen.
Multimodale KI-Modelle wie Gemini von Google können Text, Bild und Ton verarbeiten. Im Gegensatz zu solchen Modellen, die oft gepaarte Daten aus verschiedenen Modalitäten verwenden, zum Beispiel Bilder und zugehörige Textbeschreibungen, konzentriert sich Multimodal Pathway auf Szenarien, in denen die Datensätze aus verschiedenen Modalitäten stammen, aber keine direkte Relevanz zueinander haben.
Multimodal Pathway Transformer findet positiven Effekt
Das Team der Chinese University of Hong Kong und des Tencent AI Lab untersuchte konkret, ob sich die Leistung von KI-Modellen für eine bestimmte Modalität wie Bilderkennung verbessert, wenn zusätzlich Daten aus einer anderen, eigentlich irrelevanten Modalität wie Audio oder Punktwolken verwendet werden.
Dazu entwickelten die Forscher den Multimodal Pathway Transformer (M2PT), bei dem ein spezifischer Tokenizer und ein spezifischer Kopf (Head) für die Zielmodalität mit Transformer-Blöcken eines Hilfsmodells, das mit Daten einer anderen Modalität trainiert wurde, über "Cross-Modal Re-parameterization" verknüpft werden.
Cross-Modal Re-parameterization ist eine Methode, bei der jede lineare Schicht in den Transformer-Blöcken des Zielmodells mit ihrem Gegenstück im Hilfsmodell verbunden wird. Die Ausgaben beider Schichten werden addiert. Dieser Ansatz verursacht marginale zusätzliche Trainingskosten und keine zusätzlichen Inferenzkosten, was ihn für die praktische Anwendung besonders attraktiv macht.
Die Anwendung des multimodalen Pfadansatzes führte zu signifikanten und konsistenten Leistungsverbesserungen über verschiedene Modalitäten hinweg. Praktische Experimente, die von den Entwicklern durchgeführt wurden, haben zu Leistungsverbesserungen in den Bereichen Bild-, Punktwolken-, Video- und Audioerkennung geführt.
KI-Modell profitiert von komplementärem Wissen
Warum funktioniert das? Die Forscher vermuten, dass das Modell, das auf Daten einer bestimmten Modalität trainiert wurde, Wissen kodiert hat, von dem ein anderer Modellierungsprozess, dessen Eingabesequenzen aus einer anderen Modalität stammen, profitieren kann.
Dieses "modality-complementary knowledge" oder modalitätsspezifische komplementäre Wissen scheint zu existieren und übertragbar zu sein, selbst wenn die Daten zwischen den Modalitäten irrelevant sind.
Dennoch bleibt eine theoretische Begründung für die beobachteten Verbesserungen offen. Diese könnte zu einem tieferen Verständnis des Mechanismus und neuronaler Netzwerke im Allgemeinen führen und ist nach Ansicht des Teams Gegenstand zukünftiger Forschung.